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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 礁 断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辜 出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 王选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹 理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 从 书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com ~ 
电子 邮件 : hzjsj@hzbook.com = 
联系 电话 : (010) 88379604 a Bans 
联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 ] 号 华章 教育 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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垃圾 回收 技术 给 编程 所 带 来 的 好 处 是 不 言 而 喻 的 ， 它 能 够 从 根本 上 解决 软件 开发 过 程 中 
的 内 存 管理 问题 ， 大 大 提升 开发 效率 。 但 是 目前 ， 垃 圾 回收 领域 的 书籍 却 非 常 少 。 

本 书 可 以 说 是 垃圾 回收 领域 排名 第 二 的 经 典 著 作 之 一 ， 排 名 第 一 的 也 出 自 同一 作者 之 手 。 
1996 年 ，Jones 等 的 Garbage Collection: Algorithms for Automatic Dynamic Memory Management — 
书 出 版 ， 并 于 2004 年 译 成 中 文 。 回 顾 1996 年 ， 垃 圾 回收 技术 的 大 范围 应 用 才刚 刚 起 步 
CH 正 称霸 着 软件 开发 领域 ，Java 语言 才 推出 一 年 之 久 ，Anders Hejlsberg (C# 之 父 ，.NET 的 
创立 者 ) 刚刚 加 入 微软 公司 。 近 20 年 过 去 了 ， 垃 圾 回收 技术 早已 在 各 种 编程 语言 中 遍地 开花 ， 
而 且 几 乎 成 为 每 种 新 诞生 语言 的 标 配 。 与 1996 年 的 Garbage Collection: Algorithms for Automatic 
Dynamic Memory Management 一 书 相 比 ， 本 书 不 仅 在 内 容 上 更 加 丰富 ， 而 且 更 加 注重 充分 利用 
近 20 年 来 硬件 发 展 所 带 来 的 机 遇 与 挑战 。 

本 书 从 最 基础 的 垃圾 回收 算法 出 发 ， 进 一 步 介绍 了 到 目前 为 止 已 经 十 分 成 熟 的 工业 级 垃 
圾 回收 技术 实现 〈 例 如 分 代 回 收 机 制 )， 这 些 内 容 基本 上 算是 垃圾 回收 领域 的 “经 典 ” 内 容 。 
与 此 同时 ， 面 对 多 核 技 术 的 发 展 以 及 并 行程 序 的 普及 ， 本 书 使 用 接近 一 半 的 篇 幅 介 绍 了 如 何 
充分 利用 多 处 理 器 的 能 力 来 实现 垃圾 回收 (例如 并 行 回 收 、 并 发 回收 等 )， 相 关 技 术 大 都 是 
近 些 年 才 研发 出 来 的 新 成 果 ， 代 表 着 垃圾 回收 领域 最 先进 的 发 展 方向 。 本 书 最 后 进一步 介绍 
了 垃圾 回收 技术 在 实时 系统 领域 的 最 新 研究 成 果 。 

对 于 开发 人 员 而 言 ， 在 享受 垃圾 回收 机 制 所 带 来 便利 的 同时 ， 是 否 曾 想 过 隐藏 在 它 背 后 
的 秘密 ?在 进行 技术 选 型 时 ， 如 何 评估 垃圾 回收 对 性 能 可 能 造成 的 影响 ? 面 对 编程 语言 所 提 
供 的 种 类 繁多 的 垃圾 回收 相关 参数 ， 应 当 如 何 进行 配置 与 调 优 ? 通过 本 书 ， 开 发 人 员 能 够 更 
加 深入 地 了 解 垃圾 回收 方面 的 相关 问题 、 不 同 回收 器 的 工作 模式 。 对 于 研究 生 以 及 大 学 生 而 
， 如 果 他 们 对 编程 语言 的 垃圾 回收 机 制 的 技术 实现 感 兴趣 ， 本 书 将 是 不 二 之 选 。 

最 后 ， 我 要 感谢 那些 在 翻译 过 程 中 给 予 我 帮助 与 支持 的 人 。 首 先 要 感谢 《 Java 虚拟 机 规 
范 (Java SE 7 版 )》 的 译 者 薛 迪 将 我 引入 技术 书籍 翻译 这 个 领域 ， 并 在 翻译 过 程 中 指出 我 的 
许多 不 足 。 同 时 还 要 感谢 机 械 工业 出 版 社 的 吴 怡 和 张 梦 玲 编辑 对 我 的 帮助 ， 以 及 对 我 延迟 交 
稿 的 包容 。 最 后 要 特别 感谢 的 是 我 的 妻子 ， 在 这 一 年 多 的 时 间 里 ， 翻 译 工作 让 我 没有 太 多 的 
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1960 4, McCarthy 和 Collins 发 表 了 第 一 篇 有 关 自 动 动态 内 存 管理 ( 即 垃圾 回收 ) 的 论 
文 。 弹 指 一 挥 间 ，50 多 年 后 的 今天 ， 本 书 也 已 截稿 。 垃 圾 回收 机 制 诞 生 于 Lisp 程序 语言 ， 无 巧 不 
RË, Lisp 语言 诞生 于 1958 年 ， 在 其 40 周年 之 际 ， 第 一 届 国 际 内存 管 理 研 讨 会 (International 
Symposium on Memory Management) 于 1998 年 10 月 举办 ， 而 本 书 开 始 写 作 的 时 间 也 恰 逢 此 次 
会 议 召开 10 周年 。McCathy[1978] 回忆 他 在 麻 省 理工 学 院 工 业 联络 研讨 会 上 第 一 次 现场 演示 
Lisp 语言 时 的 情形 ， 他 们 本 想 给 观众 留 下 良好 的 第 一 印象 ， 但 不 幸 的 是 ，IBM 704。 在 演示 的 中 
途 就 耗 尽 了 全 部 的 32KB 内 存 空间 ， 电 传 打 字 机 以 每 秒 十 个 字符 的 速度 输出 


THE GARBAGE COLLECTOR HAS BEEN CALLED. SOME INTERESTING STATISTICS ARE AS 
FOLLOWS: 


以 及 其 他 一 些 更 加 元 长 的 错误 信息 ， 这 一 问题 几乎 占据 了 当时 的 整个 演示 时 间 ， 于 是 
McCarthy 的 项 目 小 组 不 得 不 省 略 刷新 Lisp 核心 映像 的 相关 内 容 ， 并 在 观众 的 笑 声 中 无 奈 地 
结束 演示 。50 多 年 后 的 今天 ， 垃 圾 回收 早已 不 再 是 一 个 筑 话 ， 反 而 已 经 成 为 现代 编程 语言 
实现 的 关键 组 成 部 分 之 一 。 对 于 所 有 诞生 于 1990 年 之 后 且 得 到 广泛 应 用 的 编程 语言 ，Visual 
Basic (出 现 于 1991 年 ) 是 其 中 唯一 一 个 没有 采用 自动 内 存 管理 的 语言 ， 但 是 其 现代 版 本 
VB.NET (出 现 于 2002 年 ) 却 依 赖 于 具备 垃圾 回收 能 力 的 微软 公共 语言 运行 时 (Microsoft 
common language runtime) 。 

垃圾 回收 给 软件 开发 带 来 的 收益 不 胜 枚 举 。 它 可 以 消除 开发 过 程 中 的 几 大 类 错误 ， 例 如 
尝试 对 蕊 挂 指 针 ( 即 指向 已 经 回收 或 错误 甚至 被 重新 分 配 出 去 的 内 存 ) 进行 解 引 用 ， 或 者 对 
已 经 释放 的 内 存 进行 二 次 释放 。 尽 管 其 不 能 保证 完全 消除 内 存 泄 漏 问题 ,但 也 能 大 幅 减 少 
该 问题 的 出 现 几 率 ， 还 能 够 大 幅 简 化 并 发 数据 结构 的 构建 和 使 用 [Herlihy and Shavit, 2008]。 
综 上 所 述 ， 开 发 者 能 够 基于 垃圾 回收 所 提供 的 抽象 能 力 进行 更 好 的 软件 工程 实践 。 它 简化 了 
用 户 接口 ， 使 得 代码 更 加 容易 理解 和 维护 ， 进 而 更 加 可 靠 。 由 于 用 户 接口 不 再 需要 关注 内 存 
管理 ， 所 以 提升 了 代码 的 可 复 用 性 。 

在 过 去 的 数 年 中 ， 内 存 管理 技术 在 软件 和 硬件 方面 都 取得 了 长 足 进 步 。1996 年 ， 典 型 的 
Intel 奔腾 处 理 器 的 时 钟 速度 只 有 120MHz， 就 连 基于 Digital 的 Alpha 芯片 的 高 端 工作 站 主 频 
也 只 有 266MHz。 而 在 今天 ， 主 频 达 到 3GHz 以 上 的 高 端 处 理 器 以 及 多 核 芯片 已 经 非常 普遍 ， 
主 存 空 间 也 几乎 取得 了 1000 倍 的 增长 ， 普 通 台 式 计算 机 的 内 存 大 小 已 经 从 最 初 的 几 兆 字 节 扩 
展 到 了 4GB。 尽 管 如 此 ，DRAM 内 存 的 性 能 提升 速度 依然 赶不上 处 理 器 的 主 频 增长 速度 。 我 
们 曾 在 Garbage Collection: Algorithms for Automatic Dynamic Memory Management PHH, Si 
圾 回收 是 能 够 解决 所 有 内 存 管理 问题 的 灵丹妙药 ”"， 并 特别 指出 “垃圾 回收 机 制 尚 无 法 应 用 于 


© IBM 704 为 Lisp 贡献 了 car Fil cdr 这 两 个 概念 ， 并 沿用 至 今 。 在 IBM 704 中 ， 每 个 36 位 的 字 都 包含 一 个 地 
址 部 分 (address part) 以 及 一 个 减 量 部 分 (decrement part)， 它 们 均 占用 15 位 。Lisp 的 链表 或 者 cons 单元 
将 指针 存储 在 这 两 部 分 中 。 链 表 头 部 或 者 cons 单元 的 第 一 个 元 素 可 以 使 用 IBM 704 的 car (contents of the 
address part of register) 指令 获取 ; 相应 地 ， 链 表 尾 部 或 者 cons 单元 的 第 二 元 素 可 以 使 用 cdr ( contents of the 
decrement part of register) 指令 获取 。 


VI 


便 实 时 系统 〈 即 系统 必须 在 给 定时 限 内 对 事件 做 出 响应 六 。 但 时 至 今日 ， 硬 实时 垃圾 回收 器 
已 经 走出 实验 室 并 进入 到 商业 应 用 领域 。 尽 管 现代 垃圾 回收 器 已 经 解决 了 大 多 数 内 存 管理 问 
题 ， 但 新 硬件 、 新 环境 以 及 新 应 用 的 出 现 仍 会 在 内 存 管理 领域 不 断 抛 出 新 的 问题 与 挑战 。 


致 读者 


本 书 试图 将 过 去 50 多 年 间 学 者 和 开发 者 们 在 自动 内 存 管 理 领域 所 积累 的 丰富 经 验 加 以 
总 结 。 所 涉 文献 数量 庞大 ， 在 写作 期 间 我 们 的 在 线 资源 库 收 集 了 多 达 2500 条 记录 。 在 描述 
最 重要 的 实现 策略 以 及 代表 最 先进 水 平 的 实现 技术 时 ， 我 们 尽量 在 一 个 统一 的 、 易 于 接受 的 
框架 内 进行 讨论 与 比较 。 我 们 特别 注意 使 用 统一 的 风格 和 术语 来 介绍 相关 的 算法 与 概念 ， 同 
时 辅 以 伪 代 码 和 插图 来 描述 具体 细节 。 对 于 关乎 性 能 的 部 分 ， 我 们 特别 注意 对 底层 细节 的 描 
述 ,例如 同步 操作 原 语 的 选择 、 硬 件 组 件 (如 高 速 缓存 ) 对 算法 设计 的 影响 。 

在 过 去 的 10 年 间 ， 硬 件 和 软件 设施 的 发 展 给 垃圾 回收 领域 带 来 了 许多 新 的 挑战 。 处 理 
器 和 内 存 之 间 的 性 能 差距 总 体 在 不 断 扩 大 。 处 理 器 时 钟 速度 得 到 大 幅 增长 ， 单 个 芯片 上 集成 
的 处 理 吉 核 心 数量 越 来 越 多 ， 使 用 多 处 理 器 的 模块 也 越 来 越 普遍 。 本 书 重 点 关注 了 这 些 变化 
对 高 性 能 垃圾 回收 器 的 设计 与 实现 所 造成 的 影响 。 由 于 高 速 缓存 对 性 能 的 影响 至 关 重 要 ， 所 
以 垃圾 回收 算法 必须 考虑 到 局 部 性 问题 。 越 来 越 多 的 应 用 程序 已 经 多 线程 化 ， 且 运行 在 多 核 
处 理 器 之 上 ， 因 而 我 们 应 当 避 免 内 存 管理 器 成 为 性 能 瓶颈 。 另 外 ， 垃 圾 回收 器 的 设计 应 当 充 
分 利用 硬件 的 并 行 能 力 。 在 Jones[1996]。 中 ， 我 们 完全 没有 考虑 如 何 使 用 多 线程 进行 并 行 回 
收 ， 只 用 一 章 的 篇 幅 来 介绍 增 量 回收 与 并 发 回收 ， 这 在 当时 的 书 中 显得 格外 引 人 注 目 。 

本 书 自始至终 都 密切 关注 现代 硬件 所 带 来 的 机 遇 与 限制 ， 对 局 部 性 问题 的 考量 将 贯穿 全 
书 。 我 们 默认 应 用 程序 可 能 是 多 线程 的 。 尽 管 本 书 涵盖 了 很 多 更 加 简单 、 更 加 传统 的 算法 ， 
但 我 们 还 是 花 了 全 书 近 一 半 的 篇 幅 来 介绍 并 行 回收 、 增 量 回 收 、 并 发 回收 以 及 实时 回收 。 

我 们 希望 本 书 能 够 帮助 到 对 编程 语言 实现 感 兴趣 的 研究 生 、 研 究 人 员 和 开发 人 员 。 对 于 
选修 了 编程 语言 、 编 译 器 构建 、 软 件 工程 或 操作 系统 方面 高 级 课程 的 本 科 生 而 言 ， 本 书 也 会 
有 所 帮助 。 此 外 ， 我 们 希望 专业 开发 人 员 能 够 通过 本 书 更 加 深入 地 了 解 垃圾 回收 面临 的 相关 
问题 、 不 同 回收 器 的 工作 模式 ， 我 们 相信 ， 与 具体 的 专业 知识 相 结合 ， 开 发 人 员 在 面 对 多 种 
垃圾 回收 方法 时 ， 能 够 更 好 地 进行 回收 器 的 选 型 与 配置 。 由 于 几乎 所 有 的 现代 编程 语言 都 提 
供 了 垃圾 回收 机 制 ， 所 以 全 面 了 解 这 一 课题 对 所 有 开发 者 来 说 都 是 不 可 或 缺 的。 


本 书 结构 


本 书 第 1 章 以 探讨 为 什么 需要 自动 内 存 管 理 作为 开篇 ， 简 要 介绍 了 对 不 同 垃圾 回收 策略 
进行 比较 的 方法 。 该 章 结 尾 介 绍 了 贯穿 全 书 的 抽象 记 法 与 伪 代 码 描述 方式 。 

接 下 来 的 4 章 详细 描述 了 4 种 经 典 的 垃圾 回收 算法 ， 分 别 是 标记 - 清扫 算法 、 标 记 - 整 
理 算 法 、 复 制式 回收 算法 以 及 引用 计数 算法 。 本 书 对 这 些 回收 算法 进行 了 深入 的 研究 ， 并 特 
别 关 注 了 其 在 现代 硬件 设施 上 的 实现 。 如 果 读 者 需要 一 些 更 加 基础 的 介绍 ， 可 以 参阅 我 们 先 
前 的 一 本 书 Garbage Collection: Algorithms for Automatic Dynamic Memory Management (Richard 
Jones and Rafael Lins, Wiley, 1996), #3 6 章 深 入 比较 了 第 2 一 5 章 所 介绍 的 回收 策略 与 算 
法 ,评估 了 它们 各 自 的 优 缺 点 以 及 在 不 同情 况 下 的 适用 性 。 





© 指 的 是 Garbage Collection: Algorithms for Automatic Dynamic Memory Management. 编辑 注 
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内 存 回收 策略 同样 依赖 于 内 存 分 配 策略 。 第 7 章 介绍 了 多 种 不 同 的 内 存 分 配 技 术 ， 并 进 
一 步 探究 了 自动 垃圾 回收 与 显 式 内 存 管理 这 两 种 场景 下 分 配 策略 的 不 同 之 处 。 

前 7 章 假定 所 有 堆 中 的 对 象 均 采用 相同 的 管理 策略 ， 但 根据 许多 因素 可 知 这 并 非 一 种 良 
好 的 设计 策略 。 第 8 章 讨论 了 为 何 需要 将 堆 划 分 为 多 个 不 同 的 空间 ， 以 及 如 何 管理 这 些 空 
间 ; 第 9 章 介绍 了 最 成 功 的 对 象 管理 策略 之 一 : 分 代 垃 圾 回收 ; 第 10 章 介 绍 了 大 对 象 的 管 
理 策 略 以 及 其 他 分 区 策略 。 

在 构建 垃圾 回收 器 的 过 程 中 ， 与 运行 时 系统 其 他 部 分 的 对 接 是 最 复杂 的 内 容 之 一 A 
此 第 11 章 用 了 一 整 章 的 篇 幅 来 介绍 运行 时 接口 ， 包 括 指针 查找 、 能 够 安全 发 起 垃圾 回收 的 
代码 位 置 、 读 写 屏障 等 。 第 12 章 讨 论 了 特定 语言 相关 内 容 ， 包 括 终 结 机 制 和 弱 引 用 。 

在 接 下 来 的 章节 中 ， 我 们 将 注意 力 集中 在 并 发 环境 下 。 第 13 章 探讨 了 现代 硬件 系统 给 
垃圾 回收 器 的 实现 者 所 带 来 的 新 机 遇 与 挑战 ， 同 时 介绍 了 同步 、 前 进 、 结 束 、 一 致 等 问题 的 
相关 算法 。 第 14 章 介绍 如 何在 挂 起 所 有 应 用 程序 线程 的 前 提 下 使 用 多 个 线程 进行 垃圾 回收 。 
接 下 来 的 4 章 介绍 了 多 种 不 同 种 类 的 并 发 回收 器 ， 它 们 均 放 宽 了 “万 物 静 止 ”这 一 要 求 ， 其 
回收 过 程 只 需要 给 用 户 程序 引入 十 分 短暂 的 停顿 。 最 后 ， 第 19 章 探讨 了 最 富 挑战 性 的 课题 ， 
即 垃圾 回收 在 硬 实时 系统 中 的 应 用 。 

每 一 章 结尾 都 总 结 了 一 些 需 要 考虑 的 问题 ， 其 目的 在 于 引导 读者 去 思考 自己 的 系统 有 什 
么 样 的 需求 ， 以 及 如 何 满足 这 些 需求 ， 这 些 问 题 不 仅 关 乎 用 户 程 序 的 行为 ， 也 关乎 操作 系 
统 ， 甚 至 底层 硬件 的 形 为 。 但 这 些 问 题 并 不 能 替代 对 具体 章节 的 阅读 ， 它 们 并 不 是 描述 现 有 
解决 方案 ， 而 是 提供 进一步 研究 的 焦点 。 

本 书 缺 少 了 哪些 内 容 ? 我 们 仅仅 讨论 了 内 髋 于 运行 时 系统 的 自动 内 存 管理 技术 ， 即 使 编 
程 语言 指定 了 垃圾 回收 相关 的 规范 ， 我 们 也 没有 深入 探讨 其 所 支持 的 其 他 内 存 管 理 机 制 。 最 
明显 的 例子 是 区 域 (region) 的 应 用 [Tofte and Talpin, 1994]， 其 在 Java 实时 规范 中 占据 着 
显著 的 地 位 。 我 们 仅 花 费 了 少量 的 篇 幅 来 介绍 区 域 推断 以 及 栈 上 分 配 技术 ， 并 且 几 乎 没有 
涉及 其 他 通过 编译 期 分 析 来 替代 ， 甚 至 辅助 垃圾 回收 的 技术 。 尽 管 引 用 计数 策略 在 C++ 等 
语言 中 得 到 了 广泛 应 用 ， 但 我 们 依然 认为 它 不 是 在 用 户 程序 中 进行 自动 内 存 管 理 的 最 佳 选 
择 。 最 后 ， 我 们 认为 ， 下 一 代 计 算 机 将 采用 高 度 非 一 致 内 存 架 构 ， 并 配备 异 构 垃 圾 回收 顺 
(heterogeneous collector)。 这 方面 的 技术 与 分 布 式 垃圾 回收 (distributed garbage collection) 
的 相关 性 较 大 ， 但 在 过 去 的 数 十 年 间 ， 分 布 式 垃圾 回收 领域 鲜 有 新 的 研究 成 果 发 表 ， 这 不 得 
不 说 是 一 件 憾事 。 本 书 没有 介绍 分 布 式 垃圾 回收 的 相关 内 容 。 


在 线 资源 


本 书 相 关 的 电子 资料 参见 ， http://www.gchandbook.org。 

该 网 站 包含 了 大 量 垃圾 回收 相关 资源 ， 包 括 本 书 完 整 的 参考 文献 。 本 书 末尾 所 列 的 参考 
文献 超过 了 400 条 ， 但 我 们 的 在 线 数 据 库 中 有 超过 2500 条 垃圾 回收 相关 文献 。 该 数据 库 支 
持 在 线 搜索 ， 同 时 还 支持 BibTeX, PostScript, PDF 格式 的 下 载 。 除 了 相关 文章 、 论 文 、 书 
籍 之 外 ， 该 参考 文献 还 包含 了 某 些 文献 的 摘要 ， 对 于 大 多 数 存在 电子 版 的 文献 ， 我 们 还 给 出 
了 相关 URL 以 及 DOI 信息。 

我 们 将 持续 更 新 本 书 参 考 文献 ， 并 将 其 作为 一 项 社区 服务 。 如 果 有 更 多 文献 (或 者 修正 
意见 )， 欢 迎 联系 Richard (R.E.Jones@kent.ac.uk)， 我 们 将 不 胜 感 激 。 


© 我 们 在 Jones[1996] 中 省 略 了 相关 内 容 。 
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托管 语言 (managed language) 以 及 托管 运行 时 系统 ( managed run-time system) 不 仅 
能 够 提升 程序 的 安全 性 ， 而 且 可 以 通过 对 操作 系统 和 硬件 架构 的 抽象 来 提升 代码 的 灵活 
性 ， 因 而 受到 越 来 越 多 开发 者 的 青睐 。 托 管 代码 (managed code) 的 优点 已 经 得 到 广泛 认可 
[Butters，2007]。 虚 拟 机 (virtual machine) 本 身 提供 的 多 种 服务 可 以 减少 开发 者 的 工作 量 ， 
如 果 编 程 语言 是 类 型 安全 的 ( type-safe)， 并 且 运 行 时 系统 可 以 在 程序 加 载 时 进行 代码 检查 ， 
在 运行 时 对 资源 访问 冲突 、 数 组 以 及 其 他 容器 进行 边界 检查 ， 同 时 提供 自动 内 存 管理 能 力 ， 
那么 代码 的 安全 性 将 更 有 保障 。 尽 管 “一 次 编译 ， 到 处 运行 ”( write once, run anywhere) 的 
说 法 有 些 言 过 其 实 ,但 虚拟 机 确实 使 跨 平台 程序 开发 变 得 更 加 简单 、 开 发 成 本 更 低 。 开 发 者 
也 可 将 主要 精力 专注 在 应 用 程序 的 逻辑 上 。 

几乎 所 有 的 现代 编程 语言 都 使 用 动态 内 存 分 配 (allocation)， 即 允许 进程 在 运行 时 分 配 
或 者 释放 无 法 在 编译 期 确定 大 小 的 对 象 ， 且 人 允许 对 象 的 存活 时 间 超 出 创建 这 些 对 象 的 子 程 
序 时 间 9。 动 态 分 配 的 对 象 存在 于 堆 (heap) 中 而 非 栈 (stack) 或 者 静态 区 (statically) 中 。 所 
谓 栈 ， 即 程序 的 活动 记录 (activation record) RAM (stack frame); 静态 区 则 是 指 在 编译 
期 或 者 链接 期 就 可 以 确定 范围 的 存储 区 域 。 堆 分 配 是 十 分 重要 的 功能 ， 它 允许 开发 者 ; 

e 在 运行 时 动态 地 确定 新 创建 对 象 的 大 小 〈 从 而 避免 程序 在 运行 时 遭遇 硬 编 码 数组 长 度 

不 足 产 生 的 失败 )。 

e 定义 和 使 用 具有 递归 特征 的 数据 结构 ， 例 如 链表 (list)、 树 (tree) 和 映射 aes 

。 问 父 过 程 返回 新 创建 的 对 象 ， 例 如 工厂 方法 。 

。 将 一 个 函数 作为 另 一 个 函数 的 返回 值 ， 例 如 函数 式 语言 中 的 闭 包 (closure) 或 者 悬挂 

(suspension) ©, 

堆 中 分 配 的 对 象 需要 通过 引用 (reference) 进行 访问 。 一 般 情 况 下 ， 引 用 即 指向 对 象 的 
指针 (pointer) (也 就 是 对 象 在 内 存 中 的 地 址 )。 引 用 也 可 以 通过 间接 方式 实现 ， 例 如 它 可 以 
是 一 个 间接 指向 对 象 的 句柄 (handle)。 使 用 句柄 的 好 处 在 于 ， 当 迁移 某 一 对 象 时 ， 可 以 仅 修 
改 对 象 的 句柄 而 避免 通过 程序 改变 这 个 对 象 或 句柄 的 所 有 引用 。 


1.1 显 式 内 存 释放 


任何 一 个 运行 在 有 限 内 存 环境 下 的 程序 都 需要 不 时 地 回收 运行 过 程 中 不 再 需要 的 对 象 。 
堆 中 对 象 使 用 的 内 存 可 以 使 用 显 式 释放 (explicit deallocation) 策略 (例如 C 语言 的 free PK 
数 或 者 C++ 的 delete 操作 符 )、 基 于 引用 计数 的 运行 时 系统 [Collins，1960]、 追 踪 式 垃圾 回 
收 器 [McCarthy，1960] 进行 回收 。 显 式 内 存 释 放 会 在 两 个 方面 增加 程序 出 错 的 风险 。 

一 方面 ， 开 发 者 可 能 过 早 地 回收 依然 在 引用 的 对 象 ， 这 种 情况 将 引发 悬挂 指针 
(dangling pointer) 问题 (如 图 1.1 所 示 )。 正 常情 况 下 ， 开 发 者 将 不 会 访问 已 经 释放 的 内 存 ， 


SO ABP, 方法 (method)、 函 数 (function)、 过 程 (procedure)、 子 程序 (subroutine) 这 几 个 概念 等 价 。 
O 即 待 计算 的 表达 式 。 一 一 译 者 注 


2 AE ua 
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所 以 运行 时 系统 可 以 将 其 清空 (填充 0 )， 也 可 以 将 其 重新 分 配 出 去 ， 甚 至 可 以 将 其 归还 给 操 
作 系 统 。 因 此 ， 如 果 程 序 对 悬挂 指针 进行 访问 ， 那 么 执行 结果 将 是 不 可 预知 的 。 此 时 开发 者 
最 期 望 的 结果 是 程序 立即 前 溃 ， 但 更 常见 的 情况 却 是 程序 会 在 崩溃 前 继续 运行 一 段 时 间 ( 导 
致 调试 困难 )， 或 者 一 直 运 行 下 去 但 输出 错误 的 结果 (甚至 这 些 错误 很 难 被 检测 到 )。 检 测 悬 
挂 指针 的 一 种 策略 是 使 用 肥 指 针 (fat pointer)， 它 将 指针 目标 对 象 的 版 本 号 作为 指针 本 身 的 
一 部 分 。 当 对 肥 指 针 进行 解 引用 时 ， 运 行 系统 会 首先 判断 肥 指 针 中 记录 的 版 本 号 与 其 目标 对 
象 的 版 本 号 是 否 一 致 。 这 一 方法 存在 额外 开销 ， 而 且 并 非 完 全 可 靠 ， 因此 其 应 用 范围 几乎 局 
限于 调试 工具 上 9。 

另 一 方面 ， 开 发 者 很 可 能 在 程序 将 对 象 使 用 完毕 之 后 未 将 对 象 释放 ， 从 而 导致 内 存 泄漏 
(memory leak) 现象 的 出 现 。 在 小 程序 中 ， 内 存 泄 漏 可 能 不 会 造成 太 大 影响 ,但 对 于 较 大 的 
程序 ， 内 存 泄漏 却 有 可 能 导致 显著 的 性 能 下 降 〈 即 内 存 管 理 器 难以 满足 新 的 内 存 分 配 需求 )， 
甚至 是 崩溃 ( 即 程序 的 内 存 被 耗 光 )。 一 次 错 
penton pail sf Ff a 

A 

N Hine apni yy PUL 过 时 地 刷 除 对 象 可 能 引发 错误 。 此 处 对 旬 

普遍 ， 即 当 两 个 或 更 多 子 过 程 持 有 同一 个 对 le ggg pe aang ane len 

i , 4 悬挂 指针 ， 且 对 象 C Por h HAA 25 Va] AeA it 
象 的 引用 时 。 在 并 发 编程 情况 下 ， 当 两 个 或 SR CHR, EWEN 
多 个 线程 引用 同一 个 对 象 时间 题 将 更 加 严重 。 oer 
随 着 多 核 处 理 器 的 普及 ， 开 发 者 需要 投入 相当 多 的 精力 来 构建 线程 安全 的 数据 结构 库 。 实 现 
线程 安全 的 数据 结构 库 的 算法 必须 面临 一 系列 问题 ， 例 如 死 锁 (deadlock)、 活 锁 (livelock), 
ABA 问题 (ABA problem) 9。 自动 内 存 管 理 可 以 显著 降低 这 些 问题 的 解决 难度 (例如 可 以 消 
除 某 些 情 况 下 的 ABA 问题 )， 否则 编程 方案 将 十 分 复杂 [Herlihy and Shavit，2008]。 

更 为 根本 的 问题 在 于 ， 显 式 释 放 需 要 花费 开发 者 更 多 的 精力 。 如 何 正确 进行 内 存 管理 往往 
是 编程 中 的 固有 难题 8 ， 正 如 Wilson[1994] 所 指出 的 “存活 性 是 一 个 全 局 ( global) PIE”, [04 
调用 tree 函数 将 对 象 释放 却 是 局 部 行为 ， 所 以 如 何 将 对 象 正 确 地 释放 是 一 个 十 分 复杂 的 问题 。 

在 不 支持 自动 化 动态 内 存 管理 的 语言 中 ， 众 多 研究 者 已 经 付出 了 相当 大 的 努力 来 解决 
这 一 难题 ， 其 方法 主要 是 管理 对 象 的 所 有 权 (ownership) [Belotsky, 2003 ; Cline, Lomow, 
1995]。Belotsky[2003] 等 人 针对 C++ 提出 了 几 个 可 行 策略 : 第 一 ， 开 发 者 在 任何 情况 下 
都 应 当 避 免 堆 分 配 ， 例 如 可 以 将 对 象 分 配 在 栈 上 ， 当 创建 对 象 的 函数 返回 之 后 ， 栈 的 弹出 
(pop) 操作 会 自动 将 对 象 释放 。 第 二 ， 在 传递 参数 与 返回 值 时 ， 应 尽量 传 值 而 非 引 用 。 尽 管 
这 些 方法 避免 了 分 配 、 释 放 错 误 ， 但 其 不 仅 会 造成 内 存 方面 的 压力 ， 而 且 失 去 了 对 象 共享 的 
能 力 。 男 外 ， 开 发 者 也 可 以 在 一 些 特殊 场景 下 使 用 自 定义 内 存 分 配器 ， 例 如 对 象 池 ( pool of 
object)， 在 程序 的 一 个 阶段 完成 之 后 ， 池 中 的 对 象 将 作为 一 个 整体 全 部 释放 。 

C++ 语言 尝试 通过 特殊 的 指针 类 和 模板 来 改善 内 存 管 理 。 此 类 方法 通过 对 指针 操作 进 
行 重 载 (overload) 来 提升 内 存 回收 的 安全 性 ， 但 是 这 些 智 能 指针 (smart pointer) 通常 存在 


© 开源 工具 valgrind (http://valgrind.org) 框架 中 使 用 的 内 存 泄漏 检测 工具 memcheck 虽然 速度 较 慢 ， 但 是 更 加 
可 靠 。 另 外 还 有 很 多 商业 化 的 内 存 调试 工具 。 

© ABA 问题 : 一 个 变量 的 初始 值 是 A， 被 改写 为 B， 然 后 再 次 被 改写 为 A (参见 第 13 章 )。 

© “如 果 你 手 里 拿 着 C++ 这 把 锤子 ， 那 么 所 有 东西 看 起 来 都 像 钉 子 ”，Steven M. Haflich, Common Lisp ANSI 标 
准 NCITS/J13 技术 委员 会 主席 。 
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一 些 限制 。auto_ptr 与 标准 库 不 兼容 ， 并 且 即 将 在 下 一 个 C++ 标准 版 本 中 废弃 [Boehm, 
Spertus，2009]， 取 而 代 之 的 是 更 加 先进 的 uniaue_ptz， 它 将 提供 严格 的 所 有 权 控 制 语义 ， 
即 在 该 指针 被 摧毁 时 ， 其 目标 对 象 将 自动 得 到 释放 。 新 标准 也 将 提供 一 个 基于 引用 计数 的 
shared_ptre， 但 其 仍 存在 一 定 限制 ， 即 引用 计数 指针 无 法 处 理 自 引用 ( 环 状 引用 ) 数据 结 
构 。 大 多 数 智 能 指针 都 是 以 库 的 形式 提供 ， 因 此 当 需 要 关注 性 能 时 ， 其 适用 范围 可 能 会 受到 
限制 。 智 能 指针 可 能 只 适用 于 管理 数据 块 非常 大 、 引 用 关系 变更 较 少 的 场景 ， 因 为 只 有 在 这 
种 情况 下 ， 智 能 指针 的 开销 才 有 可 能 远 小 于 追踪 式 垃 圾 回收 。 另 外 ,在 没有 编译 器 和 运行 时 
系统 支持 的 情况 下 ， 基 于 引用 计数 的 智能 指针 算 不 上 是 一 种 高 效 的 、 通 用 的 小 对 象 管理 策 
略 ， 特 别 是 在 指针 操作 非 线程 安全 的 情况 下 。 

若 安全 地 进行 手动 内 存 管 理 有 过 多 的 方法 也 会 引发 另 一 个 问题 : 如 果 开 发 者 始终 需要 考 
虑 对 象 的 所 有 权 管 理 问题 ， 那 么 他 究竟 应 当 使 用 哪 种 方法 ? 当 使 用 第 三 方 代码 库 时 ， 这 一 问 
题 将 更 加 严重 。 例 如 ， 第 三 方 代码 库 使 用 哪 种 方法 进行 内 存 管理 ? 所 有 的 第 三 方 库 是 否 都 使 
用 同一 种 方法 ? 


1.2 自动 动态 内 存 管 理 


自动 动态 内 存 管理 可 以 解决 大 多 数 悬 挂 指针 和 内 存 泄漏 问题 。 垃 圾 回收 (garbage 
collection, GC) 可 以 将 未 被 任何 可 达 对 象 引 用 的 对 象 回收 ， 从 而 避免 悬挂 指针 的 出 现 。 原 
则 上 讲 ， 回 收 器 最 终 都 会 将 所 有 不 可 达 对 象 回收 ,但 是 有 两 个 注意 事项 : 第 一 ， 追 踪 式 回收 
(tracing collection) 引入 “垃圾 ”这 一 具有 明确 判定 标准 的 概念 ， 但 它 不 一 定 包 含 所 有 不 再 
使 用 的 对 象 ; 第 二 ， 后 面 章节 将 要 描述 ， 在 实际 情况 下 ， 出 于 效率 原因 ， 某 些 对 象 可 能 不 会 
被 回收 。 只 有 回收 占 可 以 释放 对 象 ， 所 以 不 会 出 现 二 次 释放 ( double-freeing) YA. Meat 
掌握 堆 中 对 象 的 全 局 信息 以 及 所 有 可 能 访问 堆 中 对 象 的 线程 信息 ， 因 而 其 可 以 决定 任意 对 象 
是 否 需 要 回收 。 显 式 释放 的 主要 问题 在 于 其 无 法 在 局 部 上 下 文中 掌握 全 局 信息 ， 而 自动 动态 
内 存 管理 则 简单 地 解决 了 这 一 问题 。 

总 之 ， 内 存 管理 是 一 个 软件 工程 学 问题 。 设 计 良 好 的 程序 应 当 是 由 一 系列 “高 内 聚 ， 低 
耦合 ”的 组 件 〈( 从 广义 上 来 讲 ) 构建 而 成 。 "高 内 聚 ” 可 以 简化 程序 的 维护 ， 即 在 理想 情况 
下 ， 开 发 者 如 需 理解 一 个 模块 ， 只 需要 关注 该 模块 本 身 的 代码 或 者 其 他 相关 模块 的 少量 代 
码 ;“ 低 耦合 ”意味 着 一 个 模块 不 依赖 其 他 模块 的 实现 。 在 这 种 情况 下 ， 如 果 要 考虑 正确 的 
内 存 管理 ， 就 意味 着 一 个 模块 要 了 解 其 他 模块 的 内 存 管理 规则 。 相 比 之 下 ， 显 式 内 存 管理 显 
然 不 能 满足 软件 工程 学 中 “ 低 耦 合 ” 的 原则 ， 它 需要 引入 一 些 额外 的 接口 ， 例 如 需要 显 式 传 
递 额外 参数 来 协商 对 象 的 所 有 权 ， 或 者 隐 式 要 求 开 发 者 遵从 一 些 特定 惯例 ， 这 些 要 求 都 限制 
了 模块 的 可 复 用 性 。 

垃圾 回收 可 以 带 来 的 好 处 绝 不 仅仅 是 简化 编码 ， 它 同时 可 以 解除 模块 之 间 内 存 管理 层次 
的 耦合 ， 且 不 需要 额外 的 内 存 管理 接口 ， 从 而 提升 了 模块 的 可 复 用 性 。 正 是 由 于 这 些 原因 ， 
垃圾 回收 机 制 几乎 成 为 现代 编程 语言 的 标 配 (如 表 1.1 所 示 )， 甚 至 下 一 代 C++ 标准 都 有 可 
能 引入 垃圾 回收 机 制 8S[Boehm and Spertus，2009]。 大 量 证 据 表 明 ， 包 含 自动 内 存 管理 机 制 


日 当前， 下 一 代 符合 ISO C++ 标准 的 最 终 提 案 是 CHOx (该 标准 最 终 在 2011 年 通过 ， 被 称 为 CHH1 )。 一 一 译 者 注 
© 见 http:/boostorg。 
O 作者 这 里 提 到 的 “下 一 代 ” 其 实 就 是 C++ 11 标准 ， 但 该 标准 最 终 并 未 引入 垃圾 回收 机 制 。 一 一 译 者 注 
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的 托管 代码 可 以 降低 开发 成 本 [Butters ，2007]， 但 不 幸 的 是 ， 这 些 证 据 大 多 是 未 经 证 实 的 ， 
或 者 只 是 不 同 语言 、 不 同系 统 之 间 的 比较 (因此 比较 结果 可 能 受到 内 存 管理 策略 之 外 因素 的 
影响 )， 更 加 详细 的 比较 研究 则 少 有 表明 这 一 观点 。 还 有 人 建议 将 垃圾 回收 机 制作 为 复杂 系 
统 中 软件 设计 的 主要 关注 点 [Nagle，1995]。Rovner[1985] 估计 ， 在 施乐 公司 Mesa 系统 的 开 
发 过 程 中 ，40% 的 开发 时 间 花 费 在 了 内 存 管理 相关 问题 的 调试 上 。 或 许 ， 层出不穷 的 内 存 错 
误 检 测 工具 能 够 在 经 济 方面 间接 地 给 予 自动 内 存 管理 最 有 力 的 支持 。 

表 1.1 现代 编程 语言 与 垃圾 回收 (这些 语言 都 是 基于 垃圾 回收 的 ) 





SNOBOL ( 1962 年 ) Theta ( 1994 年 ) Visual Basic ( 1991 年 ) 
YAFL ( 1993 年 ) 


ActionScript ( 2000 年 ) AppleScript ( 1993 年 ) Beta ( 1983 年 ) 
Managed C++ ( 2002 年 ) Dylan ( 1992 年 ) 
Eiffel ( 1986 4E) Fortress ( 2006 年 ) 
Groovy ( 2004 年 ) Liana ( 1991 年 ) 
Lisp ( 1958 年 ) MATLAB ( 20 世纪 70 年 代 ) 
ML ( 1990 4E) Pike ( 1996 年 ) 
POP-2( 1970 年 ) Sather( 1990 年 ) 
Self( 1986 年 ) Squeak ( 1996 年 ) 
VB.NET ( 2001 年 ) Algol-68( 1965 年 ) 
AspectJ ( 2001 年 ) Cecil( 1992 年 ) 
CLU(1974 年 ) Elasti-C ( 1997 年 ) 
Euphoria ( 1993 年 ) Haskell ( 1990 年 ) 
Java ( 1994 年) Lua ( 1994 年 ) 
Mercury ( 1993 年 ) Obliq ( 1993 年 ) 
PHP ( 1995 年 ) Rexx ( 1979 年 ) 
Scala ( 2003 年 ) Smalltalk ( 1972 年 ) 
Tel ( 1990 年 ) X10 ( 2004 年 ) 
APL ( 1964 年 ) Cyclone ( 2006 年 ) 
Cedar ( 1983 年 ) E( 1997 年 ) 
Emerald ( 1988 年 ) Go (2010 年 ) 
Hope ( 1978 年) Lingo ( 1991 年 ) 
Mathematica ( 1987 年 ) Oberon ( 1985 年 ) 
Perl ( 1986 年 ) Prolog ( 1972 年 ) 
Ruby ( 1993 年 ) Simula ( 1964 年 ) 
| Thea(1994 年 ) 
We 


诚然 ， 并 不 是 说 垃圾 回收 是 根除 所 有 与 内 存 相 关 的 编程 错误 且 适 用 于 所 有 场景 的 银 弹 
(silver bullet)。 内 存 泄漏 是 最 普遍 的 一 种 内 存 错误 ， 尽 管 垃 圾 回收 可 以 减少 内 存 泄漏 现象 的 
出 现 ， 但 也 不 能 保证 完全 根除 。 如 果 某 个 对 象 在 程序 未 来 的 运行 过 程 中 不 可 达 ( 例 如， 从 已 
知 根 集合 开始 通过 任何 指针 链 都 不 可 达 )， 则 回收 器 会 将 其 回收 ， 这 是 删除 对 象 的 唯一 方法 ， 
因此 悬挂 指针 不 会 出 现 ; 如 果 删 除 某 个 对 象 导致 其 子 对 象 也 不 可 达 ， 则 它 也 将 得 到 回收 ， 所 
以 图 1.1 所 示 的 任何 一 种 情况 都 不 会 出 现 。 但 是 ， 垃 圾 回收 仍 不 能 确保 根除 内 存 泄 漏 ， 对 于 
那 种 一 直 可 达 但 无 限 增长 的 数据 结构 〈 例 如 不 停 地 将 数据 添加 到 缓冲 区 中 ， 但 却 不 从 中 移 除 
任何 对 象 )， 或 者 一 直 可 达 但 永远 不 会 再 用 到 的 对 象 ， 垃 圾 回收 也 无 能 为 力 。 
自动 动态 内 存 管 理 的 设计 目标 仅 限 于 其 字面 所 表达 的 内 容 。 一 些 评论 者 抱怨 垃圾 回收 器 
[4 ] 不 能 提供 通用 的 资源 管理 功能 ,例如 关闭 不 再 使 用 的 文件 或 者 窗口 ， 但 这 一 批评 有 失 公 人 允 : 
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垃圾 回收 不 是 一 剂 万 能 的 灵丹妙药 ， 它 所 针对 和 解决 的 是 一 个 特定 的 问题 ， 即 内 存 资 源 的 管 
理 问题 。 在 具有 垃圾 回收 功能 的 语言 中 ， 通 用 资源 管理 仍然 是 一 个 很 大 的 问题 。 在 显 式 内 存 
管理 的 系统 中 ， 内 存 的 释放 与 其 他 资源 的 释放 具有 直接 且 天 然 的 联系 ， 而 自动 内 存 管 理 系统 
却 引 入 了 新 的 问题 : 如 何在 缺少 这 种 天 然 联系 的 情况 下 对 其 他 资源 进行 管理 。 有 趣 的 是 ， 许 
多 资源 释放 场景 都 会 用 到 一 些 与 垃圾 回收 类 似 的 机 制 ， 并 据 此 来 检测 某 个 资源 在 程序 的 后 续 
运行 过 程 中 是 否 会 继续 使 用 〈 可 达 )。 


1.3 垃圾 回收 算法 之 间 的 比较 


本 书 介绍 了 多 种 不 同类 型 的 垃圾 回收 器 ， 它 们 针对 不 同 的 工作 负载 、 硬 件 环境 以 及 性 能 
要 求 而 设计 ， 但 没有 哪 种 回收 器 能 够 保证 在 所 有 情况 下 都 有 最 优 表现 。 例 如 ，Fitzgerald 和 
Tarditi[2000] 通过 对 20 个 基准 测试 程序 以 及 6 种 回收 器 进行 研究 发 现 ， 当 配备 更 加 合理 的 
回收 器 时 ， 至 少 有 一 个 基准 程序 的 性 能 可 以 提升 15% ; Singer 等 [2007b] 使 用 机 器 学 习 技术 
来 预测 适用 于 特定 程序 的 最 优 垃 圾 回收 器 ; 还 有 一 些 研 究 者 认为 不 同 的 回收 器 在 不 同 特征 的 
负载 下 会 有 不 同 表现 ， 进 而 探究 Java 虚拟 机 (Java Virtual machine) 在 运行 时 切换 回收 需 的 
方法 ， 以 期 得 到 性 能 上 的 提升 [Printezis, 2001 ; Soman 等 ，2004]。 本 节 我 们 将 对 在 回收 器 
之 间 进 行 比 较 的 标准 进行 分 析 ， 但 不 论 是 在 理论 上 还 是 在 实践 中 ， 进 行 这 样 的 比较 通常 都 较 
为 困难 : 具体 的 实现 细节 、 算 法 的 局 部 性 (locality)、 算 法 复杂 度 公式 中 常数 的 实际 意义 都 
会 导致 比较 的 结果 对 实际 应 用 并 不 具有 较 高 的 指导 价值 ; 算法 的 性 能 不 仅 取决 于 对 象 在 堆 中 
的 大 小 以 及 拓扑 结构 (topology)， 还 与 程序 的 访问 模式 (access pattern) AK; 用 于 比较 的 
各 项 指标 之 间 并 非 相 互 独立 ， 实 际 虚拟 机 中 的 各 种 优化 选项 也 都 具有 一 定 内 在 联系 ， 因 此 ， 
针对 特定 目的 对 某 一 参数 进行 调整 可 能 会 对 其 他 指标 产生 负面 作用 。 


1.3.1 安全 性 


垃圾 回收 器 首先 要 考虑 的 因素 是 安全 性 (safety)， 即 在 任何 时 候 都 不 能 回收 存活 对 象 。 
但 安全 性 是 需要 付出 一 定 代价 的 ， 特 别 是 在 并 发 回收 器 中 (参见 第 15 章 )。 对 于 不 依赖 编译 
器 或 者 运行 时 系统 的 保守 式 回 收 ( conservation collection)， 其 安全 性 在 理论 上 可 能 会 被 编译 
器 的 某 些 掩 盖 指 针 的 优化 所 影响 [Jones，1996， 见 第 9 章 ]。 


13.2 吞吐 量 


对 程序 的 最 终 用 户 而 言 ， 程 序 当然 是 运行 得 越 快 越 好 ， 但 这 是 由 几 方 面 因 素 决定 的 。 其 
中 的 一 方面 便 是 花费 在 垃圾 回收 上 的 时 间 应 当 越 少 越 好 ， 文 献 中 通常 用 标记 / 构造 率 (mark/ 
cons ratio) 来 衡量 这 一 指标 。 这 一 概念 是 在 早期 的 Lisp 语言 中 最 先 提出 的 ， 它 表示 回收 器 
(对 存活 对 象 进行 标记 ) 与 赋值 器 (mutator) (创建 或 者 构造 新 的 链表 单元 ) 活跃 度 的 比值 。 然 
而 在 大 多 数 设 计 良 好 的 架构 中 ， 赋 值 器 会 比 回收 器 占用 更 多 的 CPU 时 间 ， 因 此 在 适当 牺牲 
回收 器 效率 的 基础 上 提升 赋值 器 的 吞吐 量 ， 并 进一步 提升 整个 程序 〈 赋 值 器 + 回收 器 ) 的 执 
行 速度 ， 一 般 来 说 是 值得 的 。 例 如 ， 使 用 标记 一 清扫 回收 的 系统 偶尔 会 执行 存活 对 象 整理 以 
减少 内 存 碎片 ， 虽 然 这 一 操作 开销 较 大 ， 但 它 可 以 提升 赋值 器 的 分 配 性 能 。 


13.3 ”完整 性 与 及 时 性 
理想 情况 下 ， 垃 圾 回收 过 程 应 当 是 完整 的 ， 即 堆 中 的 所 有 垃圾 最 终 都 应 当 得 到 回收 ， 但 
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这 通常 是 不 现实 的 ， 甚 至 是 不 可 取 的 ， 例 如 纯粹 的 引用 计数 回收 器 便 无 法 回收 环 状 引用 垃圾 
( 自 引用 结构 )。 从 性 能 方面 考虑 ， 在 一 次 回收 过 程 (collection cycle) 中 只 处 理 堆 中 部 分 对 象 
或 许 更 加 合理 ， 例 如 分 代 回 收 器 会 依照 堆 中 对 象 的 年 龄 将 其 划分 为 两 代 或 者 更 多 代 (我 们 将 
在 第 9 章 描述 分 代 垃 圾 回收 )， 并 把 回收 的 主要 精力 集中 在 年 轻 代 ， 这 样 不 仅 可 以 提高 回收 
效率 ， 而 且 可 以 减少 单 次 回收 的 平均 停顿 时 间 (pause time) 

在 并 发 垃圾 回收 嚣 中， 赋值 器 与 回收 器 同时 工作 ， 其 目的 在 于 避免 或 者 尽量 减少 用 户 程 
序 的 停顿 。 此 类 回收 器 会 遇 到 浮动 垃圾 (floating garbage) 问题 ， 即 如 果 某 个 对 象 在 回收 过 
程 启 动 之 后 才 变 成 垃圾 ， 那 么 该 对 象 只 能 在 下 一 个 回收 周期 内 得 到 回收 。 因 此 在 并 发 回收 需 
中 ， 衡 量 完整 性 更 好 的 方法 是 统计 所 有 垃圾 的 最 终 回收 情况 ， 而 不 是 单个 回收 周期 的 回收 情 
况 。 不 同 的 回收 算法 在 回收 及 时 性 (promptness) 方面 存在 较 大 差异 ， 进 而 需要 在 时 间 和 空 
间 上 进行 权衡 。 


1.3.4 ”停顿 时 间 


许多 回收 器 在 进行 垃圾 回收 时 需要 中 断 赋值 器 线程 ， 因 此 会 导致 在 程序 执行 过 程 中 出 现 
停顿 。 回 收 器 应 当 尽 量 减 少 对 程序 主要 执行 过 程 的 影响 ， 因 此 要 求 停 顿时 间 越 短 越 好 ， 这 一 
点 对 于 交互 式 程序 或 者 事务 处 理 服务 器 〈 超 时 将 引发 事务 的 重 试 ， 进 而 导致 事务 的 积压 ) 万 
为 重要 。 但 正如 我 们 在 后 面 章节 中 将 要 看 到 的 ， 限 制 停顿 时 间 会 带 来 一 些 副作用 。 例 如 ， 分 
代 式 回收 器 通过 频繁 且 快 速 地 回收 较 小 的 、 较 为 年 轻 的 对 象 来 缩短 停顿 时 间 ， 而 对 较 大 的 、 
较为 年 老 对 象 的 回收 则 只 是 偶尔 进行 。 显 然 ， 在 对 分 代 回 收 器 进行 调 优 时 ， 需 要 平衡 不 同 分 
代 的 大 小 ， 进 而 才能 平衡 不 同 分 代 之 间 的 停顿 时 间 与 回收 频率 。 但 由 于 分 代 回收 融 必 须 记录 
一 些 分 代 间 指针 的 来 源 ， 因 此 赋值 器 的 指针 写 操作 会 存在 少量 的 额外 开销 。 

并 行 回收 器 (parallel collector) 虽然 也 需要 停顿 整个 程序 ， 但 它 可 以 通过 多 线程 回收 
的 策略 缩短 停顿 时 间 。 为 进一步 减少 停顿 时 间 ， 并 发 回收 器 与 增 量 回收 器 ( incremental 
collector) 偶尔 会 将 部 分 回收 工作 与 赋值 器 动作 交替 进行 或 者 同时 进行 ， 但 这 一 过 程 需要 确 
保 赋 值 器 与 回收 器 之 间 的 同步 ， 因 而 增 大 了 赋值 器 的 额外 开销 。 在 第 15 章 我 们 将 看 到 ， 赋 
值 器 与 回收 器 之 间 的 同步 存在 多 种 实现 方式 。 回 收 机 制 的 选择 会 影响 程序 在 空间 和 时 间 两 个 
方面 的 开销 ， 也 会 影响 垃圾 回收 周期 的 结束 。 赋 值 器 在 时 间 方 面 的 额外 开销 取决 于 需要 记录 
的 赋值 器 操作 类 型 〈 读 或 者 写 ) 及 其 如 何 记 录 。 回 收 器 在 空间 方面 的 开销 以 及 回收 周期 的 结 
束 取 决 于 系统 可 以 容忍 的 浮动 垃圾 数量 。 多 线程 赋值 器 与 回收 器 会 增 大 设计 复杂 度 。 不 论 如 
何 ， 缩短 停顿 时 间 的 措施 通常 会 增 大 整体 处 理 时 间 ( 即 降低 整体 处 理 速 度 )。 

仅 对 最 大 或 者 平均 停顿 时 间 进 行 度量 是 不 够 的 ， 必 须要 同时 考虑 赋值 器 的 性 能 ， 因 此 停 
顿时 间 的 分 布 也 值得 关注 。 有 多 种 方法 可 以 描述 停顿 时 间 的 分 布 ， 最 简单 的 方法 是 统计 停顿 
时 间 的 变化 ， 例 如 标准 差 或 者 图 形 表 示 等 。 更 有 效 的 方法 包括 最 小 赋值 器 使 用 率 ( minimum 
mutator utilization, MMU) 和 界限 赋值 器 使 用 率 (bounded mutator utilization, BMU)。MMU 
[Cheng and Blelloch, 2001] #1 BMU[Sachindran 等 ，2004] 都 简明 地 展示 了 任意 给 定时 间 窗 
内 赋值 器 占用 的 〈 最 小 ) 时间 比 例 。 图 1.2 中 , x 轴 表 示 程 序 从 开始 到 结束 的 整体 执行 时 间 ， 
》 轴 表示 赋值 器 占用 的 CPU 时 间 比 例 (使 用 率 ) 9. MMU 和 BMU 曲线 不 仅 反映 了 垃圾 回收 


O 对 于 MMU 曲线 , 假设 当 x=100 时 ,y=50%， 其 含义 是 : 在 任意 一 个 100ms 的 时 间 窗 内 ， 赋 值 器 使 用 率 的 最 
小 值 是 50% ; 对 于 BMU 曲线 ,假设 当 x=200 时 ,y=60%， 其 含义 是 : 在 任意 一 个 不 小 于 200ms 的 时 间 范 围 
内 ， 赋 值 器 使 用 率 的 最 小 值 是 60%。 译 者 注 
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mh 


过 程 占 整 个 执行 时 间 的 比例 O 轴 截 距 ， 即 曲线 最 右 侧 的 点 ， 代 表 了 赋值 器 占用 整体 处 理 时 
间 的 比例 ， 用 100% 减 去 该 值 即 可 得 到 回收 过 程 的 时 间 占 比 )， 也 反应 了 垃圾 回收 的 最 长 停 
顿时 间 (x 轴 截 距 ， 即 赋值 器 CPU 使 用 率 为 0% 的 最 大 时 间 窗 口 )。 一 般 来 说 ， 曲 线 在 y 轴 


上 越 高 ， 表 示 赋 值 器 的 CPU 占用 率 越 高 ， 在 x 轴 上 越 靠 左 ， 表 示 垃 圾 回收 的 最 大 停顿 时 间 
Eho MMU 曲线 反映 了 程序 在 任意 时 间 窗 (x) 内 赋值 器 的 最 小 使 用 率 (y), 但 是 较 大 时 间 
窗 的 MMU 可 能 会 比较 小 时 间 窗 的 更 低 ， 因 此 MMU 曲线 会 出 现下 降 。 相 比 之 下 ,BMU H 
线 则 反映 出 某 一 时 间 窗 或 者 更 大 时 间 窗 内 的 MMU 值 ， 因 此 它 是 单调 递增 的 。BMU 曲线 或 
许 比 MMU 曲线 更 为 直观 。 


100% 


80% 


[7] 
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最 小 赋值 器 使 用 率 (MMU) 和 界限 赋值 器 使 用 率 (BMU) 曲线 精确 反映 了 任意 时 间 窗 内 赋值 器 占 
用 的 (最 小 ) 时间 比 例 。MMU 反映 了 任意 给 定时 间 窗 (x) 内 的 最 小 赋值 器 使 用 率 (y) ; BMU J 
映 了 任意 给 定时 间 窗 或 者 更 大 的 时 间 范 围 内 的 最 小 赋值 器 使 用 率 。 在 两 种 情况 下 ,x 轴 截 距 都 反 
映 最 大 停顿 时 间 ，y 轴 截 距 反 映 赋 值 器 占用 整体 时 间 的 比例 
1.3.5 ”空间 开销 


内 存 管理 的 目的 是 安全 且 高 效 地 使 用 内 存 空 间 。 不 论 是 显 式 内 存 管理 还 是 自动 内 存 管 
H, 不 同 的 管理 策略 均 会 产生 不 同 程度 的 空间 开销 (space overhead)。 某 些 垃圾 回收 器 需要 


在 每 个 对 象 内 部 占用 一 定 的 空间 〈 例 如 保存 引用 计数 )， 还 有 一 些 回收 器 会 复 用 对 象 现 有 布 
局 上 已 经 存在 的 域 (例如 将 标记 位 放 在 对 象 头 部 的 某 个 字 中 ， 或 者 将 转发 指针 (forwarding 


pointer) 记录 在 用 户 数据 上 )。 回 收 器 也 可 能 会 引入 堆 级 别 的 空间 开销 ， 例 如 复制 式 回收 器 
需要 将 堆 分 为 两 个 半 区 ， 任 何 时 候 赋值 器 只 能 使 用 一 个 半 区 ， 另 一 个 半 区 会 被 回收 器 保留 ， 


1.3.6 ”针对 特定 语言 的 优化 


并 在 回收 过 程 中 将 存活 对 象 复制 到 其 中 。 回 收 器 也 可 能 需要 一 些 辅助 的 数据 结构 ， 例 如 追踪 
式 回收 占 需 要 通过 标记 栈 来 引导 堆 中 指针 图 表 的 遍历 ， 回 收 器 在 标记 对 象 时 也 可 以 使 用 额外 
的 位 图 (bitmap) 而 非 对 象 中 的 域 ; 对 于 并 发 回收 器 或 者 其 他 需要 将 堆 划分 为 数 个 独立 区 域 


的 回收 器 ， 其 需要 额外 的 记忆 集 (remembered set) 来 保存 赋值 器 所 修改 的 指针 值 或 者 跨 区 


垃圾 回收 算法 可 以 根据 它们 所 服务 的 不 同 语言 范式 来 归 类 。 在 函数 式 语 言 中 ， 内 存 管 
理 有 着 很 大 的 优化 空间 。 某 些 语 言 (例如 ML) 将 可 变数 据 与 不 可 变数 据 进行 区 分 ， 纯 函 
数 式 语言 (例如 Haskell) 则 更 为 极端 ， 它 不 允许 用 户 改 变 任何 数据 ， 即 程序 是 透明 引用 
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(referentially transparent) 的 9? 。 然 而 ， 在 函数 式 语 言 内 部 ， 数 据 结构 的 更 新 一 般 不 超过 一 次 ， 
即 从 待 计算 值 (thunk) 到 一 个 弱 头 部 范式 (weak head normal form, WHNF) ©, 分 代 垃 圾 回 
收 器 可 以 据 此 尽快 提升 已 经 完成 计算 的 数据 结构 ( 见 第 9 章 )。 研 究 者 们 还 提出 了 基于 引用 
计数 来 处 理 环 状 数据 结构 的 完整 机 制 。 声 明 式 语言 (declarative language) 或 许 还 可 以 使 用 
其 他 策略 来 提升 堆 空 间 管 理 的 效率 ， 即 如 果 某 一 对 象 创建 于 一 个 “选择 点 ”(choice point) 之 
后 ， 那 么 当 程序 再 次 回 到 该 选择 点 时 ， 该 对 象 将 不 可 达 ， 如 果 对 象 在 堆 中 的 布局 是 按照 其 分 
配 时 间 排 布 的 ， 那 么 某 个 选择 点 之 后 分 配 的 内 存 可 以 在 一 个 固定 的 时 间 内 全 部 回收 。 不 同 种 
类 的 语言 可 能 对 回收 器 具有 不 同 的 要 求 ， 最 显著 的 差异 是 语言 中 指针 功能 的 不 同 ， 以 及 回收 
器 调用 对 象 终 结 的 需求 不 同 。 


1.3.7 ”可 扩展 性 与 可 移植 性 


可 扩展 性 (scalability) 与 可 移植 性 (portability) 是 我 们 定义 的 最 后 两 个 指标 。 随 着 PC, 
甚至 笔记 本 计算 机 中 (〈 且 不 说 大 型 服务 器 ) 多 核 硬 件 的 普及 ， 借 助 硬件 的 并 行 优 势 来 提升 垃 
圾 回收 的 性 能 将 变 得 越 来 越 重 要 。 我 们 期 待 并 行 硬件 在 规模 上 (内 核 与 套 接 字 数量 上 ) 能 有 
进一步 发 展 ， 也 希望 异 构 处 理 器 ( heterogeneous processer) 越 来 越 普 遍 。 在 服务 器 方面 ， 堆 
的 大 小 可 以 达到 数 十 甚至 数 百 吉 字 节 ， 事 务 型 负载 也 越 来 越 多 ， 这 些 都 给 垃圾 回收 带 来 更 多 
的 要 求 。 很 多 垃圾 回收 算法 需要 操作 系统 或 者 硬件 的 支持 〈 例 如 需要 依赖 页 保护 机 制 ， 需 要 
对 虚拟 内 存 空间 进行 二 次 映射 ， 或 者 要 求 处 理 器 能 够 提供 特定 的 原子 操作 )， 但 这 些 技术 并 
不 需要 很 强 的 可 移植 性 。 


1.4 性 能 上 的 劣势 


与 显 式 内 存 管理 相 比 ， 自 动 内 存 管 理 是 否 存在 性 能 上 的 劣势 ? 我 们 将 通过 对 这 一 问题 的 
分 析 ， 来 对 两 者 的 优 劣 进行 总 结 。 一 般 来 说 ， 自 动 内 存 管理 的 运行 开销 很 大 程度 上 取决 于 程 
序 的 行为 ， 甚 至 硬件 条 件 ， 因 而 很 难 对 其 进行 简单 评估 。 一 个 长 期 以 来 的 观点 是 ， 垃 圾 回收 
通常 会 在 总 内 存 知 吐 量 以 及 垃圾 回收 停顿 时 间 方 面 引入 一 些 不 可 接受 的 开销 ， 从 而 导致 应 用 
程序 的 执行 速度 慢 于 显 式 内 存 管 理 策略 。 自 动 内 存 管理 确实 会 牺牲 程序 的 部 分 性 能 ， 但 是 远 
不 如 想象 中 那样 严重 。 诸 如 malloc 和 free 等 显 式 内 存 操作 也 会 带 来 一 些 显著 开销 。Herts， 
Feng, Herger[2005] 测量 了 多 种 Java 基准 测试 程序 和 回收 算法 花费 在 垃圾 回收 上 的 真正 开销 。 
他 们 构建 了 一 个 Java 虚拟 机 并 用 其 精确 地 观察 到 对 象 何 时 不 可 达 ， 同 时 使 用 可 达 追 踪 的 方 
法 驱动 模拟 器 来 测量 回收 周期 与 高 速 缓存 不 命中 ( cache miss) 的 情况 。 他 们 将 许多 不 同 种 
类 的 垃圾 回收 器 配置 与 各 种 不 同 的 malloc/free 实现 进行 比较 ， 比 较 的 方法 是 : WRB EER 
现 某 一 对 象 变 成 垃圾 ， 则 调用 tree 将 其 释放 。Herts 等 人 发 现 ， 尽 管用 这 两 种 方式 的 测量 结 
果 差 异 较 大 ， 但 是 如 果 堆 足够 大 (达到 所 需 最 小 空间 的 5 倍 )， 那 么 垃圾 回收 需 的 执行 时 间 
性 能 将 可 以 与 显 式 分 配 相 匹敌 ， 但 对 于 一 般 大 小 的 堆 ， 垃 圾 回收 的 开销 会 平均 增 大 17%。 


1.5 实验 方法 
在 过 去 的 数 十 年 中 ， 最 最 令 人 欣 奈 的 变化 之 一 是 内 存 管 理 方面 的 各 种 文献 报告 推进 了 垃 
O 所 谓 透 明 引 用 ， 即 以 相同 的 参数 调用 同一 个 函数 两 次 ， 所 得 到 的 结果 总 是 相同 的 ， 也 可 理解 为 函数 没有 副 作 
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圾 回收 实验 方法 的 发 展 ,但 与 自然 科学 或 者 社会 科学 相 比 ， 计 算 机 科学 的 报告 标准 在 质量 方 
面 仍 有 待 提高 。Mytkowicz 等 [2008] AHL, 测量 的 偏差 是 “显著 而 又 普遍 ”的 。 

Georges 等 [2007] 通过 对 大 量 垃 圾 回收 方面 的 文献 进行 研究 发 现 ， 垃 圾 回收 实验 方法 
(其 至 是 已 经 发 表 的 ) 在 许多 场景 下 都 不 够 严谨， 许多 已 经 发 表 的 文献 在 性 能 方面 的 提升 都 
非常 小 ， 且 缺乏 统计 学 分 析 ， 使 得 其 结果 缺乏 可 信和 度 。 实 验 误差 的 引入 可 能 是 系统 性 的 ， 也 
可 能 是 随机 的 。 系 统 误差 大 多 是 由 于 实验 不 足 导致 的 ， 通常 可 以 通过 更 加 仔细 的 实验 设计 来 
避免 ; 随机 误差 通常 是 由 于 测量 环境 中 系统 的 不 确定 性 导致 的 ， 就 其 性 质 而 言 ， 这 些 错误 通 
党 不 可 预知 ， 且 经 常 超 出 实验 者 的 控制 范围 ， 因 而 应 当 从 统计 学 角度 对 其 进行 处 理 。 

基于 人 造 的 小 规模 “玩具 ”基准 测试 程序 进行 实验 的 方法 ， 由 于 其 不 能 充分 模拟 真实 环 
境 ， 长 期 以 来 遭 到 批评 [Aorn，1989]。 这 些 实验 基准 测试 程序 不 仅 无 法 反映 真实 程序 的 内 存 
分 配 交互 情况 ,而 且 由 于 其 工作 集 较 小 ， 以 至 于 真实 程序 的 局 部 性 作用 得 不 到 完整 表现 ， 因 
而 容易 导致 系统 误差 的 出 现 ，Wilson 等 [1995a] 对 这 种 方法 提出 了 很 好 的 批判 。 除 了 压力 测 
试 场景 ,实验 者 们 已 经 集体 抛弃 了 这 种 人 造 的 “玩具 ”基准 测试 程序 ， 转 而 使 用 更 大 规模 的 
基准 测试 程序 套件 ， 后 者 能 够 在 更 大 范围 上 重 现 真 实 应 用 程序 的 行为 (例如 Java 的 DaCapo 
套件 [Blackburn 等 ，2006b])。 

基于 具有 大 量 真实 程序 案例 的 基准 测试 程序 套件 进行 实验 仍 有 可 能 引入 系统 性 偏差 ， 因 
为 托管 运行 时 在 某 些 情况 下 也 会 引入 一 些 系统 误差 。 实 验 者 必须 很 小 心地 区 分 他 们 所 要 测 
试 的 内 容 ， 即 他 们 所 感 兴趣 的 是 程序 启动 时 的 开销 (对 于 执行 时 间 很 短 的 程序 这 一 点 尤为 重 
要 )， 还 是 稳定 运行 之 后 的 开销 。 对 后 者 而 言 ， 实 验 者 需要 关注 系统 的 热身 效应 ， 例 如 类 系 
加 载 或 动态 代码 优化 。 不 论 哪 种 情况 ， 都 应 当 排 除 冷 启动 效应 的 影响 ， 例 如 向 磁盘 缓存 上 加 
载 必要 文件 导致 的 延迟 。 正 是 因为 这 些 原因 ，Georges 等 [2007] 主张 多 运行 几 次 虚拟 机 以 及 
基准 测试 程序 实例 ， 并 且 排 除 第 一 次 的 执行 结果 。 

动态 (或 者 运行 时 ) 编译 是 不 确定 因素 ( non-determinism) 的 一 个 主要 来 源 ， 在 对 不 同 
的 回收 算法 进行 比较 时 这 一 因素 很 难处 理 。 一 种 解决 方案 是 排除 这 一 因素 : 研究 者 可 以 通过 
编译 重 放 ( compiler replay)， 记 录 哪 些 方法 经 过 了 优化 ， 以 及 基准 测试 程序 做 了 何 种 级 别 的 
准备 ， 这 一 记录 可 以 确保 虚拟 机 在 接 下 来 的 性 能 测试 过 程 中 使 用 同一 级 别 的 优化 [Blackburn 
等 ，2006]。 但 这 一 方法 存在 的 问题 是 ， 不 同 的 算法 实现 通常 会 调用 不 同 的 方法 ， 特 别 是 在 
被 测试 的 组 件 中 ， 因 此 使 用 哪个 编译 记录 经 常 使 人 困惑 ， 是 二 选 一 ? 还 是 取 其 交集 ? 

实验 结果 在 任何 情况 下 都 应 当 是 有 效 的 ， 即 使 可 能 存在 一 些 偏差 (例如 一 些 随机 误差 )， 
这 需要 多 次 进行 实验 并 对 其 结果 进行 统计 学 比较 。 如 果 要 确信 一 种 方法 比 男 一 种 方法 优秀 ， 
首先 必须 描述 其 可 信和 度 ， 其 次 每 个 备 选项 的 可 信 区 间 应 当 是 从 结果 中 得 出 的 ， 并 且 这 些 区 间 
之 间 没 有 重合 。Georges 等 [2007] 提出 了 一 种 严格 的 统计 学 方法 来 应 对 不 确定 性 以 及 不 可 预 
知 的 误差 (包括 动态 编译 所 带 来 的 误差 )。 他 们 主张 调用 虚拟 机 的 一 个 实例 ， 并 多 次 执行 一 个 
基准 程序 直到 稳定 状态 ( 即 最 后 次 基准 迭代 的 变化 系数 9 小 于 某 一 预定 的 阔 值 )。 通 过 这 
次 迭代 便 可 计算 出 稳定 状态 下 某 一 基准 应 用 程序 在 某 一 方面 的 平均 值 。 重 复 这 一 过 程 即 可 计 
算出 整体 平均 值 以 及 可 信 区 间 ， 更 进一步 便 可 得 出 整体 分 布 (或 者 至 少 是 某 些 瞬间 的 分 布 )。 

垃圾 回收 的 研究 需要 充分 的 性 能 报告 。 对 于 简单 的 点 阵 图 ， 即 使 辅 以 它 可 信 区 间 ， 也 是 
远 远 不 够 的 ， 因 为 内 存 管理 涉及 时 间 和 空间 两 方面 的 权衡 。 大 多 数 环境 下 ， 降 低 回收 停顿 时 
间 的 一 种 方法 是 增 大 堆 的 空间 ( 增 大 到 一 定 程度 后 将 达到 最 优 ， 但 如 果 再 增 大 ， 则 由 于 局 部 
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性 原理 ， 执 行 时 间 将 会 变 长 )。 如 果 仅 基于 一 种 大 小 的 堆 进行 实验 ， 实 验 结果 将 不 足 信 ， 因 
此 实验 者 拥有 调整 堆 大 小 (以 及 堆 内 部 的 子 空间 大 小 ) 的 能 力 是 十 分 重要 的 ， 只 有 这 样 才 能 
对 一 种 内 存 管理 算法 进行 全 面 的 性 能 评估 。 对 于 那些 可 以 通过 自动 改变 堆 大 小 来 优化 性 能 的 
生产 级 虚拟 机 ， 我 们 也 持 相同 的 观点 ， 因 为 其 自 适应 能 力 可 能 只 是 针对 最 终 用 户 的 ， 而 研究 
者 和 开发 者 可 能 需要 关注 更 多 的 内 部 细节 。 

垃圾 回收 系统 内 部 的 复杂 性 更 加 凸显 了 充分 进行 性 能 实验 的 重要 性 。 这 里 的 复杂 性 表现 
在 : 即使 对 回收 器 参数 进行 普通 的 微调 也 会 导致 回收 器 的 行为 发 生 很 大 变化 ， 例 如 在 回收 器 
的 调度 方面 ， 即 使 对 回收 过 程 的 发 生 时 间 做 很 小 的 调整 ， 也 会 使 一 个 较 大 数据 结构 的 命运 发 
生变 化 〈 是 依旧 可 达 ， 还 是 成 为 垃圾 )， 不 论 是 对 于 本 次 回收 过 程 的 开销 还 是 下 一 次 回收 的 
发 生 时 间 ， 这 都 将 产生 很 大 影响 ， 因 此 这 一 参数 具有 自我 放大 能 力 。 如 果 基 于 不 同 大 小 的 堆 
(通常 是 程序 正常 执行 所 需要 的 最 小 堆 大 小 的 整数 倍 ) 进行 实验 ,那么 实验 结果 的 抖动 将 是 
显而易见 的 。 


1.6 术语 和 符号 


在 接 下 来 的 一 节 中 我 们 将 描述 本 书 中 用 到 的 各 种 符号 。 对 于 前 文中 提 到 的 部 分 术语 ， 我 
们 也 将 给 出 更 为 精确 的 定义 。 

首先 需要 说 明 的 是 存储 的 单位 。 我 们 遵循 一 个 字 节 包含 八 个 位 这 一 惯例 。 我 们 简单 地 使 
用 KB (kilobyte), MB ( megabyte), GB ( gigabyte), TB (terabyte) 来 描述 对 应 的 2 的 整数 
次 宕 内 存单 元 (分别 是 2 、2”、2”、2”)， 而 不 使 用 SI 数字 前 级 的 标准 定义 。 


1.6.1 i 


堆 是 由 一 段 或 者 几 段 连续 内 存 组 成 的 空间 集合 。 内 存 颗粒 (granule) 是 堆 内 存 分 配 
的 最 小 单位 ， 一 般 是 一 个 字 (word) 或 者 一 个 双 字 (double-word)， 这 取决 于 需要 的 对 齐 
(alignment) 方式 。 内 存 块 (chunk) 是 一 组 较 大 的 连续 内 存 颗 粒 。 内 存单 元 (cell) 是 由 数 个 
连续 颗粒 组 成 小 内 存 块 ， 通 常用 于 内 存 的 分 配 和 释放 ， 也 可 能 由 于 某 种 原因 被 浪费 或 闲置 。 

xt R (object) 是 为 应 用 程序 分 配 的 内 存单 元 。 对 象 通 常 是 一 段 可 寻 址 的 连续 字 节 或 字 
的 数组 ， 其 内 部 被 划分 成 多 个 槽 (slot) 或 者 域 (field)， 如 图 1.3 所 示 ( 尽 管 在 某 些 实时 系统 
或 者 租 和 人 式 系统 中 的 内 存 管 理 器 会 通过 指针 结构 来 实现 较 大 的 独立 对 象 ， 但 是 这 一 结构 并 不 
暴露 给 用 户 程序 )。 域 可 能 会 包含 一 些 非 引 用 的 纯 数据 ， 例 如 整数 。 引 用 可 以 是 指向 某 个 堆 
中 对 象 的 指针 ， 也 可 以 是 空 LNULL)。 引 用 通常 是 一 个 正规 指针 (canonical pointer)， 指 向 
对 象 头 部 〈 即 对 象 首 地 址 ) 或 者 距 头 部 有 一 定 偏 移 量 的 地 址 。 某 些 情况 下 ， 对 象 会 用 一 个 头 
域 (header field) 来 存放 运行 时 系统 会 用 到 的 元 数据 ， 它 一 般 (但 并 不 绝对 ) 位 于 对 象 的 起 
始 地 址 。 派 生 指 针 (derived pointer) 一 般 是 在 对 象 的 正规 指针 的 基础 上 增加 一 个 偏 移 量 而 得 
到 的 指针 ， 内 部 指针 (interior pointer) 是 指向 内 部 对 象 域 的 派生 指针 。 

对 象 对 象 


< 一 一 域 一 > 
图 1.3 根 、 堆 内 存单 元 以 及 引用 。 对 象 (以 长 方形 表示 ) 通常 可 以 划分 成 多 个 域 (以 虚线 划分 )， 实 线 箭 
头 表示 引用 
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内 存 块 (block) 是 依照 特定 大 小 (通常 是 2 的 整数 次 寡 ) 对 齐 的 大 块 内 存 。 作 为 补充 ， 
这 里 引入 帧 (frame) 和 空间 (space) 的 概念 。 帧 (与 “ 栈 帧 ”的 概念 无 关 ) 是 地 址 空间 中 一 
KEE 2" 大 小 的 地 址 空间 ， 空 间 是 由 一 系列 (可 能 ) 不 连续 的 内 存 块 (甚至 对 象 ) 组 成 的 集合 ， 
且 系 统 处 理 每 个 内 存 块 的 方式 相似 。 页 (page) 是 由 硬件 以 及 操作 系统 的 虚拟 内 存 机 制定 义 
的 ， 高 速 缓存 行 (cache line) 或 者 高 速 缓存 块 (cache block) 是 由 CPU 的 高 速 缓存 (cache) 
EAK F (card) 是 以 2 的 整数 次 寡 对 齐 的 内 存 块 ， 其 大 小 一 般 小 于 一 页 ， 且 通常 与 某 些 
跨 空间 指针 ( 见 11.8 W) 的 方案 有 关 。 

堆 通常 可 以 使 用 对 象 图 ( object graph) 的 方式 来 描述 ， 它 一 般 是 一 个 有 向 图 ( directed 
graph)， 图 的 节点 (node) 是 堆 中 的 对 象 ， 有 向 边 是 对 象 之 间 的 引用 。 边 一 般 是 从 源 节点 
(source node) 或 者 根 (root)( 见 下 文 ) 指向 目标 节点 〈destination node) 的 引用 。 


1.6.2 ”赋值 器 与 回收 器 


对 于 使 用 垃圾 回收 的 程序 ，Dijkstra 等 [1976、1978] 将 其 执行 过 程 划 分 为 两 个 半 独 立 的 
部 分 : 
。 赋值 器 执行 应 用 代码 。 这 一 过 程 会 分 配 新 的 对 象 ， 并 且 修 改 对 象 之 间 的 引用 关系 ， 
进而 改变 堆 中 对 象 图 的 拓扑 结构 ， 引 用 域 可 能 是 堆 中 对 象 ， 也 可 能 是 根 ， 例 如 静态 
变量 、 线 程 栈 等 。 随 着 引用 关系 的 不 断 变更 ， 部 分 对 象 会 失去 与 根 的 联系 ， 即 从 根 
出 发 沿 着 对 象 图 的 任何 一 条 边 进行 遍历 都 无 法 到 达 该 对 象 。 
e 回收 器 (collector) 执行 垃圾 回收 代码 ， 即 找到 不 可 达 对 象 并 将 其 回收 。 
一 个 程序 可 能 拥有 多 个 赋值 器 线程 ， 但 是 它们 共用 同一 个 堆 。 相 应 的 ， 也 可 能 存在 多 个 
回收 器 线程 。 


1.6.3 ”赋值 器 根 


与 堆 内存 不 同 ， 赋 值 器 的 根 是 一 个 有 限 的 指针 集合 ， 赋 值 器 可 以 不 经 过 其 他 对 象 直接 访 
问 这 些 指针 。 堆 中 直接 由 赋值 器 根 所 引用 的 对 象 称 为 根 对 象 ( root object)。 当 赋值 器 访问 堆 
中 的 对 象 时 ， 它 需要 从 当前 的 根 对 象 集合 中 加 载 指针 (进而 会 增加 新 的 根 )。 赋 值 器 也 可 能 
会 丢弃 一 些 根 ， 例 如 将 某 个 根 指针 改写 为 新 的 引用 ( 即 改写 为 空 指针 或 者 指向 其 他 对 象 的 指 
针 )。 我 们 用 Roots 来 表示 根 集合 。 

在 实际 情况 下 ， 根 通常 包括 静态 / 全 局 存储 以 及 线程 本 地 存储 (例如 线程 栈 )， 赋 值 器 可 
以 通过 根 中 的 指针 直接 操纵 堆 中 对 象 。 在 赋值 器 线程 执行 一 段 时 间 后 ， 线 程 状 态 (及 其 根 集 
合 ) 可 能 发 生变 化 。 

在 类 型 安全 的 语言 中 ， 一 旦 某 个 对 象 在 堆 中 不 可 达 ， 并 且 赋 值 器 的 所 有 根 指针 中 也 不 包 
含 对 该 对 象 的 引用 ， 赋 值 器 将 无 法 再 次 访问 该 对 象 。 赋 值 器 (在 没有 与 运行 时 系统 交互 的 情 
OLE) 不 能 随意 地 “重新 发 现 ” 该 对 象 ， 因 为 其 不 能 通过 任何 指针 到 达 该 对 象 ， 也 不 能 在 该 
对 象 的 地 址 上 构造 新 对 象 。 在 某 些 语言 中 ， 部 分 对 象 需 要 进行 终结 ( finalisation)， 即 当 这 些 
对 象 不 可 达 时 ， 运 行 时 系统 会 将 其 复活 ， 从 而 赋值 器 会 再 次 访问 到 复活 之 后 的 对 象 。 这 里 我 
们 关注 的 是 ， 赋 值 器 在 没有 外 部 系统 协助 的 情况 下 是 无 法 访问 到 不 可 达 对 象 的 。 


1.6.4 引用 、 域 和 地 址 
堆 中 对 象 的 引用 通常 是 基于 它 的 内 存 地 址 来 实现 的 (该 地 址 可 以 是 对 象 的 首 地 址 ， 也 可 
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以 是 指向 对 象 内 部 某 个 数据 或 者 元 数据 的 标准 指针 )。 对 于 任意 给 定 对 象 (地 址 ) W， 不 论 其 
内 部 是 否 包 含 指针 ， 我 们 都 可 以 将 其 视 为 一 个 域 数组 ， 并 通过 该 数组 来 访问 对 象 的 内 部 域 : 
从 0 开始， 对象 的 第 i 个 域 可 以 用 N[i] 来 表示 ， 域 的 总 数 可 以 写作 |N|。 我 们 使 用 C 风格 的 
语法 来 描述 解 引 用 (dereference) 操作 ， 例 如 对 指针 p 的 解 引 用 可 以 写作 *p ; 同 理 , 使 用 & 
符号 来 获取 对 象 的 地 址 ， 因 此 可 以 用 &N[i] 表示 对 象 和 中 第 i 个 域 的 地 址 。 对 于 给 定 对 象 
(地 址 ) N, Pointers n) 表示 N 中 指针 域 的 集合 ， 更 加 正式 的 写法 是 : 


Pointers (N) = {a | a = &N[i], Vi:0< i < |N| 若 N[i] 是 一 个 指针 } 


为 了 方便 表述 ， 我 们 使 用 Pointers 来 表示 堆 中 所 有 对 象 包含 的 所 有 指针 域 ， 相 应 的 ， 
Nodes 表示 堆 中 所 有 (已 分 配 ) 对 象 的 集合 。 我 们 也 把 Reots 当 作 (与 堆 相 隔离 的 ) 伪 对 象 ， 
同时 定义 Pointers (Roots) = Roots， 从 而 可 以 用 Roots [il 代表 第 i 个 根 域 。 


16.5 ”存活 性 、 正 确 性 以 及 可 达 性 


如 果 某 一 对 象 在 程序 的 后 续 执 行 过 程 中 可 能 会 被 赋值 器 访问 ， 则 称 该 对 象 是 存活 (live) 
的 。 回 收 器 的 正确 性 是 指 其 永远 不 会 回收 依然 存活 的 对 象 ， 但 对 于 应 用 程序 而 言 ， 存 活性 
(liveness) 是 一 个 不 确定 的 特征 : 一 般 的 程序 无 法 确定 赋值 器 是 否 永 远 不 会 再 访问 某 个 堆 中 对 
象 ， 因 为 程序 持 有 一 个 对 象 的 指针 并 不 意味 着 会 对 其 进行 访问 。 幸 运 的 是 ， 我 们 可 以 将 指针 
可 达 性 (pointer reachability) 这 个 可 确定 因素 作为 对 象 是 否 存活 的 近似 等 价 ， 即 : 如 果 从 对 象 
M 的 域 1 出 发 ， 经 过 一 条 指针 链 最 终 可 以 到 达 对 象 N， 则 称 对 象 N 从 对 象 M 可 达 。 因 此 如 果 
从 赋值 器 根 出 发 ， 经 过 一 条 指针 链 可 以 到 达 某 一 对 象 ， 赋 值 器 才 有 可 能 访问 到 该 对 象 。 

更 加 正式 的 (在 数学 意义 中 进行 可 达 性 表述 )， 我 们 使 用 一 /表示 直接 指针 可 达 ， 并 
将 其 定义 如 下 : 对 于 堆 中 任意 两 个 节点 M 和 NM， 当 且 仅 当 Peinters (Mm) 中 存在 一 个 域 了 = 
&Mi], H*f=Nt, 才 有 M 一 ; N。 同 理 ， 当 且 仅 当 根 集合 中 存在 域 f/,， 且 * 广 N 时 , 才 有 
Roots > N, 如 果 Pointers(M) Hf FFE Sk f, 使 得 M,N (也 就 是 MM 的 域 f 指 问 N)， 则 可 
以 说 对 象 N 从 对 象 M 直接 可 达 ， 记 作 M 一 W。 因 此 堆 中 可 达 对 象 的 集合 是 根 集合 在 “一 ” 
关系 下 的 递归 引用 闭 包 ， 即 : 


reachable={N E€ Nodes|(d r E Roots: rN) V (3 M E reachable: M—N)} (1.1) 


对 于 在 堆 中 不 可 达 ， 同 时 也 不 被 任何 赋值 器 根 引用 的 对 象 ， 其 不 可 能 被 一 个 类 型 安全 的 
赋值 器 访问 到 ， 也 就 是 说 ， 赋 值 器 能 访问 到 的 只 可 能 是 堆 中 的 可 达 对 象 ， 因 此 垃 瓜 回收 器 可 
以 使 用 可 达 性 来 定义 存活 性 。 不 可 达 对 象 必 然 是 死亡 对 象 ， 因 此 可 以 将 其 回收 ， 可 达 对 象 可 
能 仍然 存活 ， 因 此 不 能 将 其 回收 。 我 们 倾向 于 在 概念 上 将 存活 与 可 达 等 价 、 将 死亡 与 不 可 达 
等 价 、 将 垃圾 与 不 可 达 对 象 等 价 ， 尽 管 这 在 严格 意义 上 并 不 准确 。 


1.6.6 ARE 


我 们 使 用 常见 的 伪 代 码 来 描述 垃圾 回收 算法 。 我 们 提供 的 算法 片段 仅仅 是 说 明 性 的 而 非 
定义 性 的 ， 相 对 于 较为 正式 的 伪 代 码 ， 我 们 宁愿 通过 非 正式 的 文本 来 解决 歧义 。 我 们 的 目标 
是 简洁 且 有 代表 性 地 对 每 种 算法 进行 描述 ， 而 不 是 全 方位 地 描述 其 具体 实现 。 

我 们 使 用 缩 进 来 表示 伪 代 码 段 以 及 控制 语句 的 范围 。 用 符号 “一 ”表示 赋值 操作 ， 符 号 





O 存活 性 的 不 可 判定 性 是 停机 问题 (halting problem) 的 一 个 推论 (所谓 停机 问题 ， 即 判定 程序 是 否 会 在 有 限时 
间 内 运行 结束 的 问题 )。 译 者 注 
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“=” 表 示 相 等 ， 其 他 逻辑 操作 符 与 关系 操作 均 使 用 C 风格 符号 ,例如 “||” GEAR) && GE 
H5) < 2. A % ( 模 ) 等 。 


1.6.7 分 配器 


分 配器 (allocator) 与 回收 器 在 功能 上 是 正 交 关系 。 分 配器 支持 两 种 操作 : 分 配 
(allocate) 和 释放 (free)。 分 配 是 为 某 一 对 象 保留 底层 的 内 存 存 储 ， 释 放 是 将 内 存 归 还 给 
分 配器 以 便 复 用 。 分 配 存储 空间 的 大 小 是 由 一 个 可 选 参数 来 控制 的 ， 如 果 我 们 在 伪 代 码 中 忽 
略 这 一 参数 ， 意 味 着 分 配器 将 返回 一 个 固定 大 小 的 对 象 ， 或 者 对 象 大 小 对 于 算法 的 理解 并 非 
必要 。 分 配 操作 也 可 能 支持 更 多 参数 ， 例 如 将 数组 的 分 配 与 单个 对 象 的 分 配 进行 区 分 ， 或 者 
将 指针 数组 的 分 配 和 不 包含 指针 的 数组 进行 区 分 ， 或 者 包含 其 他 一 些 必要 信息 以 便 初 始 化 对 
象 头 部 。 


1.6.8 ”赋值 器 的 读 写 操作 


赋值 器 线程 在 工作 过 程 中 会 执行 三 种 与 回收 器 相关 的 操作 : 创建 (New)、 读 (Read)、 写 
(write)。 我 们 约定 ， 赋 值 器 操作 的 命名 均 采 用 首 字母 大 写 的 方式 ， 与 回收 器 相关 的 操作 则 
均 采 用 首 字母 小 写 。 这 些 操作 通常 都 会 有 顾名思义 的 行为 : 分 配 一 个 新 对 象 、 读 一 个 对 象 
的 域 、 写 一 个 对 象 的 域 。 某 些 特殊 的 内 存 管理 器 会 为 基本 操作 增加 一 些 额 外 功能 ， 即 屏障 
(barrier)， 屏 障 操作 会 同步 或 者 异步 地 与 回收 器 产生 交互 。 在 后 文 ， 我们 将 区 分 读 屏 障 (read 
barrier) 和 写 屏 障 (write barrier). 

New() New 操作 从 堆 分 配器 中 获得 一 个 新 的 堆 对 象 ， 分 配器 还 会 返回 新 分 配对 象 的 首 地 
址 。 堆 内 存 分 配 的 实现 方式 有 很 多 种 ， 但 在 新 分 配 的 对 象 可 被 赋值 器 操作 之 前 ， 回 收 器 都 
需要 先 对 其 元 数据 进行 初始 化 。 在 默认 情况 下 New 操作 的 平凡 定义 是 简单 地 执行 内 存 分 配 
操作 。 


New(): 
return allocate() 


Read(src, i) Read 操作 访问 内 存 中 的 某 一 对 象 的 域 ， 并 且 返 回 该 域 所 记录 的 值 ， 其 
中 保存 的 既 可 以 是 纯 值 (scalar) 也 可 以 是 指针 。Reaa 操作 会 引发 内 存 加 载 操 作 ， 它 需 
要 两 个 参数 : 指向 对 象 的 指针 、 待 访问 的 域 的 索引 号 。 如 果 sre 中 的 域 src[il 是 根 ( 即 
&src [il ERoots)， 则 认为 src = Roots。 在 默认 情况 下 ，Reaa 的 平凡 定义 是 简单 地 返回 域 
的 内 容 。 


Read(src, i): 
return src[i] 


Write(src, i, val) write 操作 改变 特定 内 存 的 值 。 该 操作 引发 内 存 存 储 ， 它 需要 三 
个 参数 : 指向 源 对 象 的 指针 、 待 修改 域 的 索引 号 、 待 存储 的 值 ( 纯 值 或 者 指针 )。 与 Read 操 
作 相 同 ， 如 果 sro 中 的 域 src [i] 是 根 ( 即 sreli] E Roots)， 则 认为 src = Roots, FRU 
情况 下 ，write 操作 的 平凡 定义 是 简单 地 更 新 域 。 


Write(src, i, val): 
srcli] + val 


1.6.9 ”原子 操作 
在 面 对 赋 值 器 线程 之 间 、 回 收 器 线程 之 间 、 赋 值 器 和 回收 器 之 间 的 并 发 操作 时 ， 所 有 的 
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垃圾 回收 算法 都 需要 一 些 “ 看 起 来 ”可 以 原子 执行 的 代码 序列 。 例 如 ， 挂 起 赋值 器 线程 可 以 
确保 垃圾 回收 过 程 的 原子 性 ( atomically)， 即 在 垃圾 回收 过 程 中 赋值 器 不 会 访问 堆 中 对 象 ; 
更 进一步 ， 当 回收 器 与 赋值 器 并 发 工作 时 ， 对 于 回收 器 和 赋值 器 线程 而 言 ， 创 建 、 读 、 写 操 
作 必 须 “ 看 起 来 ”是 原子 性 的 。 为 了 简化 垃圾 回收 算法 的 描述 ， 我们 一 般 不 会 去 深究 这 些 原 
子 操作 的 具体 实现 ， 只 是 简单 地 用 “atomic ”这 个 关键 字 来 描述 它们 。 原 子 操作 的 所 有 步 又 
看 起 来 都 应 当 是 不 可 分 割 的 、 瞬 时 的 ， 也 就 是 说 ， 其 他 操作 只 能 在 原子 操作 之 前 或 者 之 后 执 
行 ， 但 是 不 能 在 原子 操作 内 部 的 任意 两 个 步骤 之 间 执 行 。 我 们 将 在 第 11 章 和 第 13 章 对 原子 
操作 的 不 同 实现 技术 进行 讨论 。 


16.10 集合、 多 集合 、 序 列 以 及 元 组 


一 般 使 用 抽象 数据 结构 来 描述 算法 。 我 们 将 适当 地 使 用 数学 符号 来 描述 简单 概念 ， 并 避 
免 过 于 星 涩 的 数学 符号 。 大 多 数 情 况 下， 我 们 关注 的 是 集合 (set) 与 元 组 (tuple)， 它 们 最 基 
本 的 操作 是 元 素 的 增 、 删 、 查 。 

我 们 将 集合 定义 为 存放 不 同 元 素 的 容器 (其 中 的 元 素 两 两 不 同 )。 集 合 中 元 素 的 数量 称 
为 基 (cardinaliy)， 写 作 |S|. 

除了 标准 的 集合 符号 ， 我 们 也 使 用 多 集合 ( multiset)， 其 内 部 允许 存在 相同 元 素 。 多 
集合 的 基 是 其 中 元 素 的 总 数量 ， 包 括 相 同 的 元 素 。 某 一 元 素 出 现 的 次 数 称 为 该 元 素 的 重 数 
(multiplicity)。 多 集合 的 相关 符号 如 下 : 

e [] 表示 空 的 多 集合 。 

e [a, a, b| 表示 多 集合 中 包含 两 个 a 以 及 一 个 b。 

e [a, b]+[a]=[a, a, b] 表示 多 集合 的 求 并 操作 。 

e [a, a, b]-[a]=[a, b] 表示 多 集合 的 相 减 操作 。 

序列 (sequence) 是 一 组 元 素 的 有 序列 表 。 与 集合 (或 者 多 集合 ) 不 同 ， 序 列 中 有 顺序 
的 概念 。 类 似 于 多 集合 ， 相 同 的 元 素 可 以 在 一 个 序列 的 不 同位 置 多 次 出 现 。 序 列 的 相关 符号 
如 下 : 

© () 表示 空 序列 。 

e (a, a, b) 表示 序列 中 包含 两 个 a 和 一 个 b。 

© (a, b)*(a)=(a, b, a) 表示 将 序列 (a) 追加 到 序列 (a, b) 之 后 。 

长 度 为 k 的 元 组 ( tuple) 与 相同 长 度 的 序列 等 价 ， 但 是 其 长 度 一 般 不 允许 变化 ， 因 此 我 
们 一 般 采 用 一 个 不 同 的 符号 来 描述 元 组 。 一 般 情况 下 ， 元 组 包含 两 个 或 者 更 多 个 元 素 。 元 组 
相关 的 符号 如 下 : 

© <a, °°, a> 表示 一 个 长 度 为 的 元 组 ， 其 第 i 个 元 素 是 a;, 其 中 1 <i<k, 
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标记 一 清扫 回收 


标记 一 清扫 (mark-sweep)、 标 记 一 复制 (mark-copy)、 标 记 一 整理 (mark-compact)、 引 
用 计数 (reference counting) 是 4 种 最 基本 的 垃圾 回收 策略 。 大 多 数 回 收 絮 可 能 会 以 不 同 的 
方式 对 这 些 基 本 回收 策略 进行 组 合 ， 例 如 在 堆 中 某 一 区 域 使 用 一 种 回收 策略 ， 而 在 男 一 个 区 
域 使 用 另 一 种 回收 策略 。 接 下 来 的 4 章 将 专注 于 这 4 种 基本 回收 策略 的 介绍 ， 第 6 章 将 对 它 
们 的 特点 进行 比较 。 

在 对 这 4 种 基本 回收 策略 进行 描述 时 ， 我 们 假设 赋值 器 运行 在 一 个 或 者 多 个 线程 之 上 ， 
且 只 有 一 个 回收 器 线程 ， 当 回收 器 线程 运行 时 ， 所 有 的 赋值 器 线程 均 处 于 停止 状态 。 这 种 
“万 物 静止 ”( stop the world) 的 策略 大 幅 简化 了 回收 器 的 实现 。 从 赋值 器 线程 角度 来 看 ， 回 
收 过 程 的 执行 是 原子 性 的 ， 即 赋值 器 线程 感知 不 到 回收 器 的 任何 中 间 状 态 ， 回 收 器 也 不 会 受 
到 赋值 器 线程 的 任何 干扰 。 我 们 假设 当 回 收 过 程 开 始 时 ， 赋 值 器 线程 停止 在 一 个 允许 回收 器 
安全 扫描 其 根 集合 的 回收 点 ， 具 体 的 运行 时 接口 我 们 将 在 第 11 章 详 述 。 通 过 “万 物 静止 ” 
的 方法 可 以 获取 堆 的 快照 ， 因 此 回收 需 在 进行 对 象 存活 性 判定 时 不 用 担心 赋值 器 将 堆 中 对 象 
的 拓扑 结构 重新 排列 。 这 同时 也 意味 着 在 回收 器 释放 内 存 的 过 程 中 ， 我 们 无 需 担 心 在 同一 时 
刻 存在 其 他 回收 器 释放 内 存 或 者 赋值 器 线程 申请 内 存 ， 进 而 避免 在 线程 之 间 引 入 额外 的 同步 
机 制 。 多 赋值 器 线程 同时 获取 内 存 的 情况 我 们 将 在 第 7 章 讨论 ， 多 回收 器 线程 ， 或 者 赋值 器 
与 回收 器 并 发 执行 的 情况 将 导致 运行 时 系统 更 加 复杂 ， 我 们 将 在 后 面 的 章节 中 进行 讨论 。 

我 们 建议 读者 先 熟 悉 接 下 来 4 章 中 介绍 的 基本 回收 算法 ,然后 再 进一步 了 解 后 面 章节 中 
提 到 的 更 加 高 级 的 回收 器 。 有 经 验 的 读者 可 能 会 跳 过 这 些 基础 算法 的 描述 ， 但 是 增加 对 这 
些 基础 回收 器 实现 方式 的 了 解 也 不 失 为 一 件 有 趣 的 事 。 认 为 第 2 ~ 6 章 的 部 分 内 容 过 于 精简 
的 读者 ， 可 以 参考 Jones[1996] 中 的 资料 ， 其 对 经 典 算法 的 描述 更 加 详细 ， 并 且 包 含 更 多 的 


示例 。 

理想 的 垃圾 回收 的 目的 是 回收 程序 不 再 使 用 的 对 象 所 占用 的 空间 ， 任 何 自 动 内 存 管理 系 
统 都 面临 3 个 任务 

1 ) 为 新 对 象 分 配 空 间 。 

2 ) 确定 存活 对 象 。 


3 ) 回收 死亡 对 象 所 占用 的 空间 。 

这 些 任务 并 非 相 互 独立 ， 特 别 是 回收 空间 的 方法 影响 着 分 配 新 空间 的 方法 。 正 如 第 1 章 
所 提 到 的 ， 真正 的 存活 性 问题 是 一 个 不 可 确定 的 问题 ， 因 此 我 们 使 用 指针 可 达 性 (参见 1.6 
节 ) 来 近似 对 象 的 存活 性 : 只 有 当 堆 中 存在 一 条 从 根 出 发 的 指针 链 能 最 终 到 达 某 个 对 象 时 ， 
才能 认定 该 对 象 存活 ， 更 进一步 ， 如 果 不 存 在 这 样 一 条 指针 链 ， 则 认为 对 象 死 亡 ， 其 空间 可 
以 得 到 回收 。 尽 管 存活 对 象 集合 中 可 能 包含 一 些 永远 不 会 再 被 赋值 器 访问 的 对 象 ， 但 是 死亡 
对 象 集合 中 的 对 象 却 必定 是 死亡 的 。 

标记 一 清扫 算法 [McCarthy，1960] 是 我 们 将 要 介绍 的 第 一 种 回收 算法 ， 它 是 在 指针 
可 达 性 递归 定义 指导 下 最 直接 的 回收 方案 。 它 的 回收 过 程 分 为 两 个 阶段 : 第 一 阶段 为 追踪 
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(trace) 阶段 ， 即 回收 器 从 根 集 合 〈 寄 存 器 、 线 程 栈 、 全 局 变量 ) 开始 遍历 对 象 图 ， 并 标记 
(mark) 所 遇 到 的 每 个 对 象 ; 第 二 阶段 为 清扫 (sweep) 阶段 ， 即 回收 器 检查 堆 中 每 一 个 对 象 ， 
并 将 所 有 未 标记 的 对 象 当 作 垃 圾 进行 回收 。 

标记 一 清扫 算法 是 一 种 间接 回收 ( indirect collection) 算法 ， 它 并 非 直 接 检测 垃圾 本 身 ， 
而 是 先 确定 所 有 存活 对 象 ， 然 后 反 过 来 判定 其 他 对 象 都 是 垃圾 。 需 要 注意 的 是 ， 该 算法 的 每 
次 调用 都 需要 重新 计算 存活 对 象 集合 ,但 并 非 所 有 的 垃圾 回收 算法 都 需要 如 此 。 第 5 章 将 介 
绍 一 种 直接 回收 ( direct collection) 策略 ， 即 引用 计数 。 与 间接 回收 不 同 ， 直 接 回收 可 以 通 
过 对 象 本 身 来 判断 其 存活 性 ， 因 此 其 不 需要 额外 的 追踪 过 程 。 


2.1 标记 一 清扫 算法 


从 垃圾 回收 器 角度 来 看 ， 赋 值 器 线程 所 执行 的 只 有 3 种 操作 : 创建 、 读 、 写 。 每 一 个 回 
收 算法 必须 对 这 3 种 操作 进行 合理 的 重 定 义 ( 1.6 节 给 出 了 默认 的 定义 )。 标 记 一 清扫 算法 
与 赋值 器 之 间 的 接口 十 分 简单 : 如 果 线程 无 法 分 配对 象 ， 则 唤起 回收 器 ， 然 后 再 次 尝试 分 配 
(如 算法 2.1 所 示 )。 为 了 强调 回收 器 工作 在 “万 物 静止 ”模式 下 而 非 与 赋值 器 线程 并 发 执行 ， 
我 们 特别 使 用 atomic 关键 字 来 标记 回收 程序 。 如 果 回 收 完成 之 后 仍然 没有 足够 的 内 存 以 满 
足 分 配 需求 ， 则 说 明 堆 内 存 耗 尽 ， 这 通常 是 一 个 严重 的 错误 。 某 些 语言 在 遇 到 这 一 情况 时 会 
抛 出 异常 ， 开 发 者 可 以 将 其 捕获 ， 如 果 可 以 通过 删除 引用 的 方式 释放 内 存 〈 例 如 释放 那些 在 
未 来 可 以 重新 创建 的 数据 结构 )， 那 么 可 以 再 次 请 求 分 配 。 


算法 2.1 标记 一 清扫 : DR 


1 New(): 

2 ref + allocate() 

3 if ref = null /* 推 中 无 可 用 空间 */ 
4 collect() 

5 ref + allocate() 

6 if ref = null /* 推 中 仍然 无 可 用 空间 */ 
7 error "Out of memory" 

8 return ref 

9 


w atomic collect(): 
u markFromRoots() 
2 sweep(HeapStart, HeapEnd) 


回收 器 在 遍历 对 象 图 之 前 必须 先 构造 标记 过 程 需要 用 到 的 起 始 工 作 列表 〈work list) (BI 
算法 2.2 中 的 markFromRoots 方法 )， 即 对 每 个 根 对 象 进行 标记 并 将 其 加 入 工作 列表 (第 11 
章 将 讨论 如 何 寻 找 根 集合 )。 回 收 器 可 以 通过 设置 对 象 头 部 某 个 位 〈 或 者 字 节 ) 的 方式 对 其 
进行 标记 ， 该 位 〈 字 节 ) 也 可 位 于 一 张 额外 的 表 中 。 不 包含 指针 的 对 象 不 会 有 任何 后 代 ， 因 
此 无 需 将 其 加 入 工作 列表 ,但 仍 需 将 其 标记 。 为 了 减少 工作 列表 的 大 小 ，markFromRoots 方 
法 在 将 线程 根 加 入 到 工作 列表 之 后 立刻 调用 mark 方法 ， 而 如 果 将 mark 方法 (算法 2.2 的 第 
8 行 ) 从 循环 中 提出 则 可 加 快 线程 根 扫 描 ， 例 如 并 发 回收 器 可 能 只 需要 挂 起 线程 并 扫描 其 栈 ， 
而 接 下 来 的 对 象 图 遍历 则 可 以 与 赋值 器 并 发 进行 。 


算法 2.2 标记 一 清扫 :; 标记 


1 markFromRoots(): 
2 initialise(worklist) 
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3 for each fld in Roots 
4 ref 人 *fld 

5 if ref # null & not isMarked(ref) 
6 setMarked(ref) 

7 add(worklist, ref) 

8 mark() 

9 


w initialise(worklist): 
n worklist + empty 


3 mark(): 

14 while not isEmpty(worklist) 

15 ref + remove(worklist) /* ref 已 经 标记 过 */ 
16 for each fld in Pointers(ref) 

17 child ¢ xfld 

18 if child # null s& not isMarked(child) 

19 setMarked(child) 

2 add(worklist, child) 


单线 程 回收 器 可 以 基于 栈 来 实现 工作 列表 ， 此 时 回收 器 将 以 深度 优先 顺序 遍历 (depth- 
first traversal) 对 象 图 。 如 果 将 标记 位 保存 在 对 象 中 ， 那 么 mark 方法 所 处 理 的 将 是 那些 刚刚 
被 标记 的 对 象 ， 因 此 这 些 对 象 很 可 能 仍 在 硬件 高 速 缓存 中 。 正 如 我 们 反复 提 到 的 ， 回 收 过 程 
的 高 速 缓存 相关 行为 会 影响 到 回收 器 的 性 能 ， 我 们 将 在 稍 后 讨论 提升 回收 器 局 部 性 的 技术 。 

标记 存活 对 象 的 过 程 非常 直观 : 先 从 工作 列表 中 获取 一 个 对 象 的 引用 ， 然 后 对 其 所 引用 
的 其 他 对 象 进行 标记 ， 直 到 工作 列表 变 空 为 止 。 需 要 注意 的 是 ， 在 这 一 版 本 的 mark 方法 中 ， 
工作 列表 中 的 每 个 对 象 都 拥有 自身 的 标记 位 。 如 果 某 一 指针 域 的 值 为 空 ， 或 者 其 指向 的 对 象 
已 经 标记 过 ， 则 无 需 对 其 进行 处 理 ， 否 则 回收 器 需要 对 其 目标 对 象 进 行 标记 并 将 其 添加 到 工 
作 列 表 中 。 

标记 阶段 完成 的 标志 是 工作 列表 变 空 ， 而 不 是 将 所 有 已 标记 对 象 都 添加 到 工作 列表 。 此 
时 回收 器 已 经 完成 每 个 可 达 对 象 的 访问 与 标记 ， 任 何 没有 打上 标记 位 的 对 象 都 是 垃圾 。 

在 清扫 阶段 ， 回 收 器 会 将 所 有 未 标记 的 对 象 返还 给 分 配器 (如 算法 2.3 所 示 )。 在 这 一 过 
程 中 ， 回 收 器 通常 会 在 堆 中 进行 线性 扫描 ， 即 从 堆 底 开 始 释放 未 标记 的 对 象 ， 同 时 清空 存活 
对 象 的 标记 位 以 便 下 次 回收 过 程 复 用 。 另 外 ， 如 果 标 记过 程 使 用 两 个 标记 位 ， 且 连续 两 次 标 
记过 程 使 用 的 标记 位 不 同 ， 则 可 以 省 去 清空 标记 位 的 开销 。 

算法 2.3 标记 一 清扫 : 清扫 

1 sweep(start, end): 

2 scan + start 

3 while scan < end 

4 if isMarked(scan) 

5 unsetMarked(scan) 


else free(scan) 
scan ¢ nextObject(scan) 


我 们 将 在 第 7 章 之 后 讨论 allocate 和 free 的 具体 实现 细节 ,但 需要 注意 的 是 ， 标 记 一 清 
扫 回 收 器 要 求 堆 布 局 满足 一 定 的 条 件 : 第 一 ， 标 记 一 清扫 回收 咒 不 会 移动 对 象 ， 因 此 内 存 管理 
器 必须 能 够 控制 堆 内存 碎 片 ， 这 是 因为 过 多 的 内 存 碎 片 可 能 会 导致 分 配器 无 法 满足 新 分 配 请 
求 ， 从 而 增加 垃圾 回收 频率 ， 在 更 坏 情况 下 ， 新 对 象 的 分 配 可 能 根本 无 法 完成 ; 第 二 ， 清 扫 
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器 必须 能 够 遍历 堆 中 每 一 个 对 象 ， 即 对 于 给 定 对 象 ， 不管 其 后 是 否 存 在 一 些 用 于 对 齐 的 填充 
字 节 ，sweep 方法 都 必须 能 够 找到 下 一 个 对 象 ， 因 此 用 nextobject 方法 要 完成 堆 的 遍历 ， 仅 获 
取 对 象 的 大 小 信息 是 远 远 不 够 的 (算法 2.3 中 的 第 7 行 )。 我 们 将 在 第 7 章 讨论 堆 的 可 遍历 性 。 


2.2 三 色 抽 象 


三 色 抽 象 (tricolour abstraction) [Dijkstra 等 ，1976，1978] 可 以 简洁 地 描述 回收 过 程 中 
对 象 状态 的 变化 (是 否 已 被 标记 、 是 否 在 工作 列表 中 等 )。 三 色 抽 象 是 描述 追踪 式 回 收费 的 
一 种 十 分 有 用 的 方法 ， 利 用 它 可 以 推演 回收 器 的 正确 性 ， 这 正 是 回收 器 必须 保证 的 。 在 三 色 
抽象 中 ， 回 收 器 将 对 象 图 划分 为 黑色 对 象 (确定 存活 ) 和 白色 对 象 (可 能 死亡 )。 任 意 对 象 在 
初始 状态 下 均 为 白色 ， 当 回收 器 初次 扫描 到 某 一 对 象 时 将 其 着 为 灰色 ， 当 完成 该 对 象 的 扫描 
并 找到 其 所 有 子 节点 之 后 ， 回 收 器 会 将 其 着 为 黑色 。 从 概念 上 讲 ， 黑 色 意 味 着 已 经 被 回收 器 
处 理 过 ， 灰 色 意 味 着 已 经 被 回收 需 遍 历 但 尚未 完成 处 理 (或 者 需要 再 次 进行 处 理 )。 三 色 抽 
象 也 可 以 推广 到 对 象 的 域 中 : 灰色 表示 正在 处 理 的 域 ， 黑 色 表 示 已 经 处 理 过 的 域 。 如 果 把 赋 
值 器 也 当 作 一 个 对 象 ， 则 三 色 抽 象 也 可 用 于 推演 赋值 器 根 集合 的 状态 变化 [Pirinen 1998] : 
灰色 赋值 器 表示 回收 器 尚未 完成 对 其 根 集合 的 扫描 ， 黑 色 赋 值 器 表示 回收 器 已 经 完成 对 其 根 
集合 的 扫描 (并 且 不 需要 再 次 扫描 ) 9。 一 次 堆 遍 历 过 程 可 以 形象 地 看 作 是 回收 器 以 灰色 对 象 
作为 “ 波 面 ”(wavefront)， 将 黑色 对 象 和 白色 对 象 分 离 ， 不 断 向 前 推进 波 面 ， 直 到 所 有 可 达 
对 象 都 变 成 黑色 的 过 程 。 

在 标记 -清扫 回收 过 程 中 ， 对 象 的 颜色 变化 过 程 如 图 2.1 所 示 。 图 2.1 展示 了 一 个 基本 的 
对 象 图 以 及 标记 栈 ( 即 工 作 列 表 的 具体 
实现 ) 在 标记 过 程 中 某 个 阶段 的 状态 。 有 一 


标记 栈 中 的 所 有 对 象 都 会 再 次 得 到 访 所、 





间 ， 因 此 它们 是 灰色 的 ， 所 有 已 经 标记 
但 不 在 标记 栈 中 的 对 象 都 是 黑色 的 (如 i 

图 2.1 中 对 象 图 的 根 )， 其 他 对 象 均 为 

白色 (当前 的 对 象 A、B、C)。 但 是 ， 

一 日 mark 方法 完成 对 图 的 遍历 ， 标 记 图 2.1 使 用 三 色 抽象 来 演示 标记 过 程 。 黑 色 表示 回收 器 已 
栈 将 变 为 空 ( 即 没 有 灰色 对 象 )， 则 只 经 将 该 对 象 及 其 后 代 处 理 完成 ， 灰 色 表 示 回 收 器 已 
AMA C 依然 会 是 白色 (垃圾 )， 其 他 经 扫描 到 对 象 但 尚未 完成 处 理 ， 白 色 表 示 回 收 器 尚 
对 象 都 将 得 到 标记 (黑色 )。 未 扫描 到 对 象 ( 某 些 对 象 可 能 永远 无 法 扫描 到 ) 


上 述 算法 中 存在 一 个 重要 的 不 变 式 : 在 标记 过 程 完 成 后 ， 对 象 图 中 将 不 可 能 存在 从 黑色 
对 象 指向 白色 对 象 的 引用 ， 因 此 在 标记 过 程 中 ， 所 有 白色 可 达 对 象 都 只 能 是 从 灰色 对 象 可 
达 。 如 果 这 一 不 变 式 被 打破 ,那么 回收 器 将 不 会 进一步 处 理 黑色 对 象 ， 从 而 可 能 导致 某 个 黑 
色 对 象 的 后 代 可 达 但 未 被 标记 (进而 被 错误 地 释放 )。 后 面 我 们 将 看 到 ， 在 研究 赋值 器 线程 
与 回收 器 线程 并 发 执行 的 并 发 垃圾 回收 时 ， 垃 圾 回收 状态 的 三 色 视 图 将 十 分 有 用 。 


2.3 改进 的 标记 - 清扫 算法 
程序 的 性 能 通常 与 其 高 速 缓存 的 相关 行为 有 很 大 关系 。 从 内 存 中 加 载 一 个 值 可 能 要 花费 


O 灰色 赋值 器 与 黑色 赋值 器 的 概念 会 在 并 发 回收 算法 中 用 到 ， 参 见 第 15.1 节 。 一 一 译 者 注 
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上 百 个 时 钟 周期 , 但 从 L1 高 速 缓存 (L1 cache) 中 加 载 可 能 只 需要 花费 三 到 四 个 时 钟 周期 。 
高 速 缓存 之 所 以 能 够 提升 程序 的 性 能 ， 主 要 是 因为 程序 在 运行 时 表现 出 了 良好 的 时 间 局 部 性 
( temporal locality)， 即 一 旦 程序 访问 了 某 个 内 存 地 址 ， 则 很 可 能 在 不 久之 后 再 次 访问 该 地 
址 ， 因 此 值得 将 它 的 值 缓存 。 程 序 也 可 能 表现 出 良好 的 空间 局 部 性 ( space locality)， 即 一 旦 
程序 访问 了 某 个 内 存 地 址 ， 则 很 有 可 能 在 不 久之 后 访问 该 地 址 附近 的 数据 。 现 代 硬 件 可 以 从 
两 个 方面 利用 程序 的 局 部 性 特征 : 一 方面 ， 高 速 缓存 与 更 低级 别 内 存 之 间 不 会 进行 单个 字 节 
的 数据 传输 ， 而 是 以 一 个 固定 的 字 节 数 为 最 小 传输 单元 ( 即 高 速 缓存 行 或 者 高 速 缓存 块 的 大 
小 )， 通 常 是 32 一 128 字 节 ; 另 一 方面 ， 处 理 器 可 能 会 使 用 硬件 预 取 (prefetch) 技术 ， 例 如 
Intel Core 微 处 理 器 架构 可 以 探测 到 有 规律 的 步 进 内 存 访问 操作 ， 进 而 提前 读 取 数 据 流 。 开 
发 者 也 可 以 利用 显 式 预 取 指 令 引导 预 取 过 程 。 

不 幸 的 是 ， 垃 圾 回收 器 的 行为 与 典型 应 用 程序 并 不 相同 ， 标 记 - 清扫 回收 器 的 时 间 局 
部 性 并 不 明显 的 。 尽 管 程序 中 可 能 存在 一 些 被 引用 次 数 非常 多 的 对 象 ， 但 大 部 分 对 象 都 不 
是 共享 的 ( 即 只 被 一 个 指针 所 引用 )， 因 而 回收 器 在 标记 阶段 通常 只 会 读 写 对 象 头 部 各 一 次 
[Printezis and Grathwaite，2002]， 即 : 回收 器 读 取 对 象 头 部 的 标记 位 ， 如 果 该 对 象 尚未 得 到 
标记 则 设置 其 标记 位 ， 除 此 之 外 回收 器 在 标记 阶段 一 般 不 会 再 次 访问 该 对 象 。 对 象 头 部 通 
常会 包含 一 个 指向 该 对 象 类 型 信息 的 指针 (对象 类 型 信息 可 能 也 是 一 个 对 象 )， 回 收 器 据 此 
来 获取 对 象 中 的 指针 域 。 这 类 型 信息 可 能 包含 指针 域 的 描述 信息 ， 也 可 能 包含 将 对 象 自身 标 
记 并 将 其 子 节点 添加 到 标记 栈 的 代码 。 程 序 通常 只 使 用 有 限 的 几 种 类 型 ， 并 且 个 别 类 型 的 使 
用 频率 要 远 远大 于 其 他 类 型 ， 因 此 对 类 型 信息 进行 缓存 的 价值 较 高 。 对 于 将 标记 位 放置 在 
对 象 头 部 的 策略 ， 由 于 堆 中 对 象 在 标记 阶段 往往 只 会 被 访问 一 次 ， 所 以 硬件 预 取 无 法 发 挥 
功效 。 

接 下 来 ， 我们 将 探讨 优化 标记 一 清扫 回收 器 性 能 的 几 种 方法 。 


2.4 ”位 图 标记 


回收 器 可 以 将 对 象 的 标记 位 保存 在 其 头 部 的 某 个 字 中 ， 除 此 之 外 也 可 以 使 用 一 个 独立 的 
位 图 来 维护 标记 位 ， 即 : 位 图 中 的 每 个 位 关联 堆 中 每 个 可 能 分 配对 象 的 地 址 。 位 图 所 需 的 空 
间 取 决 于 虚拟 机 的 字 节 对 齐 要 求 。 位 图 可 以 只 有 一 个 ， 也 可 以 存在 多 个 ， 例 如 在 块 结构 的 堆 
中 ， 回 收 器 可 以 为 每 个 内 存 块 维护 独 立 的 位 图 ， 这 一 方式 可 以 避免 由 于 堆 不 连续 导致 的 内 存 
浪费 。 回 收 器 可 以 将 每 个 内 存 块 的 位 图 置 于 其 自身 内 部 ， 但 如 果 所 有 内 存 块 中 位 图 的 相对 位 
置 全 部 相同 ， 则 可 能 导致 性 能 的 下 降 ， 因 为 不 同 内 存 块 的 位 图 之 间 可 能 会 争 用 相同 的 组 相关 
高 速 缓存 ( set-associative cache)。 对 位 图 的 访问 同时 也 意味 着 对 位 图 所 在 页 的 访问 ( 即 可 能 
导致 缺 页 异常 一 一 译 者 注 )， 因 此 基于 换 页 和 高 速 缓存 相关 性 的 考虑 ， 在 访问 位 图 时 花费 更 
多 的 指令 以 保持 程序 的 局 部 性 通常 来 说 是 值得 的 。 为 避免 高 速 缓存 的 相关 问题 ， 可 以 将 内 存 
块 中 位 图 的 位 置 增加 一 个 简单 偏 移 量 ， 例 如 内 存 块 地 址 的 简单 哈 希 值 。 还 可 以 将 位 图 存放 在 
一 个 额外 的 区 域 [Boehm and Weiser, 1988 年 ] 中 ， 并 以 其 所 对 应 内 存 块 的 哈 希 值 等 作为 索 
引 ， 这样 既 避免 了 换 页 问题 ,也 避免 了 高 速 缓存 冲突 。 

位 图 标记 通常 仅 适 用 于 单线 程 环境 ， 因 为 多 线程 同时 修改 位 图 可 能 存在 较 大 的 写 冲突 风 
险 。 设 置 对 象 头 部 中 的 标记 位 通常 是 安全 的 ， 因 为 该 操作 是 过 等 的 ， 即 最 多 只 会 将 标记 位 设 
置 多 次 。 相 对 于 位 图 ,实践 中 更 常用 的 是 字 节 图 (byte-map)， 虽 然 它 占用 的 空间 是 前 者 的 8 
倍 ， 但 却 解决 了 写 冲 突 问 题 。 另 外 还 可 以 使 用 同步 操作 来 设置 位 图 中 的 位 。 在 实际 应 用 中 ， 
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如 果 将 标记 位 保存 在 对 象 头 部 通常 会 带 来 额外 的 复杂 度 ， 因 为 头 部 通常 会 存放 一 些 赋 值 器 共 
享 数据 ， 例 如 锁 或 者 哈 希 值 ， 那 么 当 标记 线程 与 赋值 器 线程 并 发 执行 时 可 能 会 产生 冲突 。 因 
此 ， 为 了 确保 安全 ， 标 记 位 通常 会 占用 头 部 中 一 个 额外 的 字 ， 以 便 与 赋值 器 共享 数据 区 分 ， 
当然 也 可 以 使 用 原子 操作 来 设置 头 部 中 的 标记 位 。 

使 用 标记 位 图 具有 诸多 潜在 优点 ， 我 们 将 进行 逐一 描述 ， 并 检验 这 些 优点 在 现代 硬件 条 
件 下 是 否 可 以 得 到 充分 发 挥 。 相 对 于 将 标记 位 放置 在 对 象 头 部 这 一 策略 ， 位 图 可 以 使 得 标记 
位 更 加 密集 ; 对 于 使 用 位 图 的 标记 一 清扫 回收 器 ， 标 记过 程 只 需 读 取 存 活 对 象 的 指针 域 而 不 
会 修改 任何 对 象 ， 对 于 不 包含 引用 的 对 象 ， 回 收 器 只 需要 读 取 其 类 型 信息 描述 域 ; 清扫 器 不 
会 对 存活 对 象 进 行 任何 读 写 操作 ， 它 只 会 在 释放 垃圾 对 象 的 过 程 中 覆盖 其 某 些 域 (例如 将 它 
们 链接 到 空闲 链表 上 )。 因 此 ， 位 图 标记 不 仅 可 以 减少 内 存 中 需要 修改 的 字 节 数 ， 而 且 减 少 
了 对 高 速 缓存 行 的 写 人 ， 进 而 减少 需要 写 回 内 存 的 数据 量 。 

位 图 标记 最 初 应 用 在 保守 式 回收 器 (conservative collector) 中 。 保 守 式 回收 器 的 设计 初 
REN CH C++ 等 “不 合作 ”的 语言 提供 自动 内 存 管理 功能 [Boehm and Weiser，1988]。 类 
型 精确 (type-accurate) 系统 可 以 精确 地 识别 每 一 个 包含 指针 的 槽 ， 不 论 其 位 于 对 象 中 ， 还 
是 位 于 线程 栈 或 者 其 他 根 集 合 中 ， 而 保守 式 回 收 器 则 无 法 得 到 编译 器 和 运行 时 系统 的 支持 ， 
因而 其 在 识别 指针 时 必须 采用 保守 的 判定 方式 ， 即 : 如 果 槽 中 某 个 值 看 起 来 像 是 指针 引用 ， 
那么 就 必须 假定 它 是 一 个 指针 。 我 们 将 在 第 11 章 详细 讨论 指针 识别 问题 。 保 守 式 回收 器 可 
能 错误 地 将 一 个 槽 当 作 指 针 ， 这 带 来 了 两 个 安全 上 的 要 求 : 第 一 ， 回 收 器 不 能 修改 任何 赋值 
器 可 能 访问 到 的 内 存 地 址 的 值 (包括 对 象 和 根 集合 )。 这 一 要 求 导 致 保守 式 回 收 器 不 能 使 用 
任何 可 能 移动 对 象 的 算法 ， 因 为 对 象 被 移动 之 后 需要 更 新 指向 该 对 象 的 所 有 引用 。 这 同时 也 
导致 在 头 域 中 保存 标记 位 的 方案 不 可 行 ， 因 为 错误 的 指针 会 指向 一 个 实际 并 不 存在 的 “对 
象 ” ， 因 此 设置 或 者 清理 标记 位 可 能 会 破坏 用 户 数 据 。 第 二 ， 应 当 尽 可 能 减少 赋值 器 破坏 回 
收 器 数据 的 可 能 性 。 与 将 标记 位 等 回收 器 元 数据 存放 在 一 个 单独 区 域 的 方案 相 比 ， 为 每 个 对 
象 增 加 一 个 回收 器 专用 头 部 数据 会 存在 更 高 的 风险 。 

使 用 位 图 标记 的 另 一 个 重要 目的 是 减少 回收 过 程 中 的 换 页 次 数 [Boehm，2000]。 在 现代 
系统 中 ， 任 何 由 回收 器 导致 的 换 页 行为 通常 都 是 不 可 接受 的 ， 因 此 位 图 标记 是 否 可 以 提升 
高 速 缓存 性 能 便 成 为 一 个 值得 关注 的 问题 。 许 多 证 据 表 明 ， 对 象 往往 成 篮 诞 生 并 成 批 死亡 
[Hayes, 1991; Jones，Ryder，2008]， 而 许多 分 配器 往往 也 会 将 这 些 对 象 分 配 在 相 邻 的 空间 。 
使 用 位 图 来 引导 清扫 可 以 带 来 两 个 好 处 : 第 一 ， 在 位 图 / 字 节 图 中 ， 一 个 字 内 部 的 每 个 位 / 
字 节 全 部 都 被 设置 / 清空 的 情况 会 经 常 出 现 ， 因 此 回收 器 可 以 批量 读 取 / 清空 一 批 对 象 的 标 
记 位 ; 第 二 ， 通 过 位 图 标记 可 以 更 简单 地 判定 某 一 内 存 块 中 的 所 有 对 象 是 否 都 是 垃圾 ， 进 而 
可 能 一 次 性 回收 整个 内 存 块 。 

许多 内 存 管理 器 都 使 用 块 结构 堆 (如 Boehm and Weiser[1988])。 最 直接 的 位 图 标记 实现 
策略 可 能 是 在 每 个 内 存 块 的 前 端 保 留 一 块 内 存 以 用 作 位 图 。 但 正如 我 们 前 面 所 提 到 的 ， 这 一 
策略 可 能 会 导致 不 必要 的 高 速 缓存 冲突 或 者 换 页 ， 因 此 回收 器 通常 将 位 图 与 用 户 数据 块 分 开 
并 单独 存放 。 

Garner 等 [2007] 提出 了 一 种 混合 标记 策略 ， 即 将 分 区 适应 分 配器 (segregated 
fitsallocator) 所 管理 的 每 个 数据 块 与 字 节 图 中 的 一 个 字 节 相关 联 ， 同 时 依然 保留 对 象 头 部 的 
标记 位 。 当 且 仅 当 内 存 块 中 至 少 存在 一 个 存活 对 象 时 ， 该 内 存 块 所 对 应 的 标记 字 节 才 会 被 设 
置 。 清 扫 器 可 以 根据 字 节 图 快速 地 判定 某 一 内 存 块 是 否 完全 为 空 ( 即 不 包含 存活 对 象 )， 进 
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而 可 以 将 其 整体 回收 。 这 一 策略 有 两 个 优点 : 第 一 ， 在 并 发 情况 下 ， 无需 使 用 同步 操作 来 设 
置 字 节 图 中 的 标记 字 节 以 及 对 象 头 部 的 标记 位 ; 第 二 ， 写 操作 没有 数据 依赖 (这 可 能 导致 高 
速 缓存 延迟 )， 且 对 字 节 图 中 标记 字 节 的 写 操作 也 是 无 条 件 的 。 

Printezis 和 Detlefs[2000] 在 一 个 主体 并 发 分 代 回 收回 (mostly-concurrent, generational 
collector) 中 使 用 位 图 来 减少 标记 栈 所 占用 的 空间 。 与 其 他 方法 类 似 ， 回 收 器 首先 在 位 图 中 
对 赋值 器 的 根 进行 标记 ， 然 后 标记 线程 通过 线性 扫描 位 图 来 寻找 存活 对 象 。 在 算法 2.4 中 ， 
回收 器 将 遵从 如 下 不 变 式 : 位 于 当前 指针 (BD mark 方法 中 的 指针 cur) 之 后 的 所 有 已 标记 对 
象 均 为 黑色 ， 而 位 于 当前 指针 之 前 的 所 有 已 标记 对 象 均 为 灰色 。 根 据 “ 将 对 象 从 栈 中 弹出 ， 
并 且 递 归 地 标记 其 后 代 ， 直 到 栈 为 空 ”的 原则 ， 当 回收 器 找到 下 一 个 已 标记 存活 对 象 cur 时 
会 将 其 压 人 标记 栈 中 ， 并 继续 进行 循环 。 在 markstep 中 ， 如 果 新 追踪 到 的 子 节点 地 址 小 于 
堆 中 的 cur， 则 回收 器 将 其 压 入 标记 栈 ， 否 则 该 对 象 的 处 理 将 被 推迟 到 后 续 的 线性 查找 过 程 
中 。 该 算法 与 算法 2.1 的 主要 区 别 在 于 将 对 象 子 节点 压 人 标记 栈 的 条 件 ， 即 算法 2.4 中 的 第 
15 行 。 在 算法 2.4 中 ， 回 收 器 的 黑色 波 面 将 在 堆 中 线性 移动 ， 只 有 位 于 该 波 面 之 后 的 对 象 才 
会 得 到 标记 ( 即 被 压 人 标记 栈 )。 尽 管 该 算法 的 时 间 复 杂 度 与 待 回收 空间 的 大 小 成 正比 ， 但 
在 实际 应 用 中 ， 位 图 查找 的 开销 通常 较 低 。 


算法 2.4 Printerzis 和 Detlefs 的 位 图 标记 


1 mark() 
2 cur + nextInBitmap() 

3 while cur < HeapEnd /* 当 且 仅 当 ref < curt}, LIRLI K ref 才 是 黑色 的 */ 
4 add(worklist, cur) 

5 markStep(cur) 

6 cur + nextInBitmap() 

7 

8 

9 


markStep(start): 
while not isEmpty(worklist) 
10 ref + remove(worklist) /* ref 已 被 标记 过 */ 
n for each fld in Pointers(ref) 
2 child + +*fld 
3 if child # null & not isMarked(child) 
4 setMarked(childa) 
15 if child < start 
6 add(worklist, child) 


还 有 一 种 类 似 的 策略 可 以 应 对 标记 栈 溢出 的 情况 ， 即 当 标记 栈 溢 出 时 设置 某 一 标记 ， 同 
时 在 后 续 追 踪 过 程 中 只 设置 对 象 的 标记 位 而 不 再 将 其 压 人 标记 栈 。 标 记过 程 会 在 这 种 状态 下 
一 直 运行 到 标记 栈 为 空 ， 然 后 我 们 必须 重新 找到 那些 已 经 标记 过 但 未 曾 压 人 标记 栈 的 对 象 。 
此 时 回收 器 将 在 堆 中 查找 那些 自身 已 经 被 标记 、 但 是 存在 一 个 或 者 更 多 未 标记 后 代 的 对 象 ， 
并 且 对 其 后 代 进 行 标记 。 最 直接 的 实现 方案 是 在 堆 中 发 起 一 次 线性 清扫 ， 但 清扫 位 图 显然 要 
比 检查 堆 中 对 象 头 域 中 的 标记 位 高 效 得 多 。 


2.5 “懒惰 清扫 


标记 过 程 的 时 间 复 杂 度 是 O(L)， 其 中 工 为 堆 中 存活 对 象 的 数量 ; 清扫 过 程 的 时 间 复 杂 
度 是 O(H)， 其 中 右 为 堆 空 间 大 小 。 由 于 及 >LK， 所 以 我 们 很 容易 误 认 为 清扫 阶段 的 开销 是 
整个 标记 一 清扫 开销 的 主要 部 分 , 但 实际 情况 并 非 如 此 。 标 记 阶段 指针 追踪 过 程 中 的 内 存 访 
问 模式 是 不 可 预测 的 ， 而 清扫 过 程 的 可 预测 性 则 要 高 得 多 ， 同 时 清扫 一 个 对 象 的 开销 也 比 追 
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踪 的 开销 小 得 多 。 优 化 清扫 阶段 高 速 缓存 行为 的 一 种 方案 是 使 用 对 象 预 取 。 为 避免 内 存 碎 
片 ， 标 记 一 清扫 算法 中 所 用 的 分 配器 通常 会 将 大 小 相同 的 对 象 分 布 在 连续 空间 内 (参见 7.4 
节 )， 此 时 回收 器 可 以 依照 固定 步 幅 对 大 小 相同 的 对 象 进行 清扫 。 这 一 方式 不 仅 支 持 软 件 预 
取 ， 而 且 可 以 充分 利用 现代 处 理 器 的 硬件 预 取 能 力 。 

接 下 来 我 们 考虑 如 何 降低 甚至 消除 清扫 阶段 赋值 器 的 停顿 时 间 。 通 过 观察 可 以 发 现 ， 对 
象 及 其 标记 位 存在 两 个 特征 : 第 一 ,一 旦 某 个 对 象 成 为 垃圾 ， 它 将 一 直 都 是 垃圾 ， 不 可 能 再 
次 被 赋值 器 访问 或 者 复活 ; 第 二 ， 赋 值 器 永远 不 会 访问 对 象 的 标记 位 。 因 此 在 赋值 器 工作 的 
同时 ， 清 扫 器 可 以 并 行 修 改 标记 位 ， 甚 至 修改 垃圾 对 象 的 域 ， 并 将 其 链接 到 分 配 结构 体 中 。 
我 们 同样 也 可 以 使 用 多 个 清扫 器 线程 与 赋值 器 并 发 工作 ， 但 更 加 简单 的 方案 是 使 用 懒惰 清扫 
(lazy sweeping) [Hughes, 1982] 策略 。 该 方案 利用 分 配器 来 扮演 清扫 器 的 角色 ， 即 把 寻找 
可 用 空间 的 任务 转移 到 allocate 过 程 中 ， 从 而 不 再 需要 单独 的 清扫 阶段 。 最 简单 的 清扫 策 
略 是 ，allocate 简单 地 向 前 移动 清扫 指针 ， 直 到 在 连续 的 未 标记 对 象 中 找到 一 块 足够 大 的 空 
间 ， 但 一 次 清扫 包含 多 个 对 象 的 内 存 块 更 具有 实用 性 。 

算法 2.5 演示 了 使 用 懒惰 清扫 策略 处 理 整 个 内 存 块 的 方法 。 分 配器 通常 只 会 在 一 个 内 存 
块 中 分 配 相 同 大 小 的 对 象 (在 第 7 章 中 详 述 )， 每 种 空间 大 小 分 级 (size class) 都 会 对 应 一 个 
或 多 个 用 于 分 配 的 内 存 块 ， 以 及 一 个 待 回收 内 存 块 链表 (reclaim list of blocks)。 在 回收 过 程 
中 ， 回 收 器 依然 需要 将 推 中 所 有 存活 对 象 标记 ， 但 标记 完成 后 回收 器 并 不 急于 清扫 整个 堆 ， 
而 是 简单 地 将 完全 为 空 的 内 存 块 归还 给 块 分 配器 〈( 见 算法 2.5 的 第 5 行 )， 同时 将 其 他 内 存 块 
添加 到 其 所 对 应 空间 大 小 分 级 的 回收 队列 中 。 一 旦 “万 物 静 止 ” 式 的 回收 过 程 结 束 ， 赋 值 器 
立即 开始 工作 。 对 于 任意 内 存 分 配 需求 ，allocate 方法 首先 尝试 从 合适 的 空间 大 小 分 级 中 分 
配 一 个 空闲 槽 〈 与 算法 7.2 所 使 用 的 策略 相同 )， 如 果 失 败 则 调用 清扫 器 执行 懒惰 清扫 ， 即 从 
该 空间 大 小 分 级 的 回收 队列 中 取出 一 个 或 多 个 内 存 块 进行 清扫 ， 直 到 满足 分 配 要 求 为 止 ( 见 
算法 2.5 的 第 12 行 )。 但 也 可 能 会 出 现 没 有 内 存 块 可 供 清 扫 ， 或 者 被 清扫 的 内 存 块 不 包含 任 
何 空闲 梭 的 情况 ， 此 时 分 配器 便 要 尝试 从 更 低级 别 的 块 分 配器 中 获取 新 内 存 块 。 新 内 存 块 通 
常 需要 通过 设置 元 数据 的 方式 进行 初始 化 ， 如 构建 空闲 槽 链表 或 者 创建 标记 字 节 图 ， 但 如 果 
无 法 获取 新 内 存 块 ， 则 必须 执行 垃圾 回收 。 


算法 2.5“” 块 结构 堆 的 懒惰 清扫 


atomic collect(): 


1 

2 markFromRoots() 

3 for each block in Blocks 

4 if not isMarked(block) /* 内 存 块 中 是 否 存在 已 标记 对 象 */ 
5 add(blockAllocator, block) /* 将 内 存 块 归还 给 块 分 配器 */ 
6 else 

7 add(reclaimList, block) /* 将 内 存 块 添加 到 懒 情 清扫 队列 */ 
8 

9 atomic allocate(sz): 

10 result + remove(sz) /* 从 空间 大 小 sz 中 进行 分 配 */ 
u if result = null /* 该 空间 大 小 分 级 中 是 否 没有 空闲 槽 */ 
2 lazySweep(sz) /* 仅 执行 少量 清扫 工作 */ 
B result 人 remove(sz) 

u return result /* 如 果 仍 然 为 空 ， 则 调用 collect */ 
15 

% lazySweep(sz): 

17 repeat 

18 block + nextBlock(reclaimList, sz) 


19 if block # null 
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20 sweep(start(block), end(block)) 
a if spaceFound(block) 
return 


B R 


if block # null 
initialise(block, sz) 


until block = null /* 该 空间 大 小 分 级 的 可 回收 块 列表 为 空 */ 
a allocSlow(sz) /* 获取 一 个 空闲 内 存 块 */ 
25 
x allocSlow(sz): /* 分 配 慢 速 路 径 */ 
r block + allocateBlock() /* 从 块 分 配器 中 获取 内 存 块 */ 
28 
29 


在 块 结构 堆 (例如 从 多 个 空间 大 小 分 级 中 进行 分 配 ) 中 进行 懒惰 清扫 有 一 个 细微 的 问题 
需要 注意 。Hughes[1982] 使 用 连续 堆 ， 并 且 确 保 在 因 内 存 耗 尽 而 再 次 引发 垃圾 回收 之 前 ， 分 
配器 已 经 完成 所 有 空闲 节点 的 清扫 。 但 懒惰 清扫 却 不 能 满足 这 一 要 求 ， 因 为 几乎 可 以 肯定 的 
是 ,在 分 配器 完成 对 每 个 空间 大 小 分 级 的 待 回 收 内 存 块 的 清扫 之 前 ， 必 然 会 存在 某 个 空间 大 
小 分 级 (及 其 所 有 的 空闲 内 存 块 ) 先 被 耗 尽 。 这 将 导致 两 个 问题 : 第 一 ,未 清扫 内 存 块 中 的 
垃圾 对 象 不 会 被 回收 ， 进 而 产生 内 存 泄漏 ,但 如 果 未 清扫 块 中 包含 存活 对 象 ， 则 泄漏 是 无 害 
的 ， 因 为 一 旦 赋值 器 从 该 空间 大 小 分 级 中 分 配对 象 ， 这 些 槽 便 可 以 得 到 回收 。 第 二 ， 如 果 未 
清扫 内 存 块 中 的 对 象 后 来 都 成 为 垃圾 ， 那 么 我 们 就 失去 了 将 内 存 块 整体 回收 的 机 会 ， 从 而 只 
能 使 用 开销 更 大 的 基于 空间 大 小 分 级 的 方法 进行 清扫 。 

最 简单 的 解决 方案 是 在 标记 开始 之 前 完成 堆 中 所 有 内 存 块 的 清扫 ， 但 更 好 的 策略 是 增加 
内 存 块 得 到 懒惰 回收 的 几率 。Garner 等 [2007] 以 容许 一 定 的 内 存 泄 漏 为 代价 来 避免 过 早 的 
内 存 块 清扫 ， 他 们 在 Jikes RVM/MMTk[Blackburn 等 ，2004] 中 实现 了 这 一 方案 。 该 算法 使 
用 一 个 有 界 整数 而 非 一 个 位 来 标记 对 象 ， 这 通常 不 会 增加 额外 的 空间 开销 ， 因 为 如 果 将 标记 
位 置 于 对 象 头 部 ， 通 常会 有 多 于 一 位 的 可 用 空间 ， 而 如 果 使 用 独立 的 标记 图 ， 通 常 使 用 的 是 
字 节 图 而 非 位 图 。 回 收 器 内 部 记录 一 个 标记 值 ， 并 使 用 该 值 设 置 存 活 对 象 的 标记 值 。 每 个 回 
收 周 期 开始 时 ， 回 收 器 都 会 将 内 部 标记 值 加 1， 然后 模 2 (天 为 对 象 标记 值 的 位 数 )， 该 值 
溢出 后 将 绕 回 到 零 。 回 收 器 可 以 据 此 判定 某 一 对 象 是 在 本 次 还 是 以 往 的 回收 过 程 中 得 到 标 
记 ， 只 有 当 对 象 的 标记 值 与 回收 器 当前 标记 值 相 等 时 ， 才 认为 该 对 象 是 在 本 次 回收 过 程 中 标 
记 的 。 标 记 值 发 生 回 绕 是 安全 的 ， 因 为 在 该 值 发 生 回 绕 之 前 ， 堆 中 存活 对 象 要 么 是 未 标记 的 
( 即 这 些 对 象 创 建 于 上 一 次 回收 之 后 )， 要 么 拥有 最 大 的 标记 值 。 如 果 某 一 对 象 的 标记 值 与 回 
收 器 的 下 一 个 标记 值 相 等 ， 那 么 该 对 象 必然 是 在 2 之 前 的 那 次 回收 过 程 中 就 已 经 标记 了 ， 
因此 该 对 象 必然 是 标记 器 无 法 访问 到 的 浮动 垃圾 。 内 存 块 标记 (block marking) 策略 可 以 在 
一 定 程 度 上 解决 这 种 潜在 的 泄漏 问题 。MMTK 回收 器 在 标记 一 个 对 象 的 同时 也 会 对 其 所 在 的 
内 存 块 进行 标记 。 如 果 内 存 块 中 没有 一 个 对 象 的 标记 值 与 回收 器 的 当前 标记 值 相 同 ， 那 么 回 
收 器 将 不 会 标记 该 内 存 块 ， 而 是 像 算法 2.5 的 第 5 行 那样 将 其 整体 回收 。 在 “对 象 成 复出 现 、 
成 批 死 亡 ” 的 统计 规律 下 ， 这 一 策略 将 十 分 有 效 。 

懒惰 回收 存在 多 种 优点 : 对 象 槽 通常 会 在 完成 清扫 后 立即 得 到 复 用 ， 因 而 提升 了 程序 的 
局 部 性 ; 懒惰 清扫 策略 将 标记 一 清扫 算法 的 复杂 度 降低 到 与 堆 中 存活 对 象 成 正比 的 水 平 ， 这 
一 点 与 第 4 章 将 要 提 到 的 半 区 复制 式 垃 圾 回收 是 相同 的 。Boehm[1995] 特别 提 到 ， 在 标记 一 
复制 算法 能 够 最 优 发 挥 功效 的 场景 下 ， 标 记 -懒惰 清扫 算法 也 能 达到 最 佳 表现 ， 即 如 果 堆 中 
大 部 分 空间 都 是 空闲 的 ， 那 么 通过 懒惰 清扫 来 查找 未 标记 对 象 将 是 最 快 的 。 在 实际 应 用 中 ， 
赋值 器 初始 化 对 象 的 开销 主要 取决 于 清扫 和 分 配 过 程 的 开销 。 
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26 标记 过 程 中 的 高 速 缓存 不 命中 问题 


我 们 已 经 看 到 ， 预 取 技 术 可 以 改进 清扫 阶段 的 性 能 。 下 面 我 们 将 考察 如 何 利 用 预 取 技术 
提升 标记 阶段 的 性 能 。2.4 节 提 到 ， 使 用 位 图 标记 可 以 减少 由 于 读 取 和 设置 标记 位 导致 的 高 
速 缓存 不 命中 ， 但 在 追踪 过 程 中 对 未 标记 对 象 的 域 的 读 取 也 会 受到 高 速 缓存 不 命中 问题 的 影 
响 。 此 时 使 用 位 图 标记 所 带 来 的 潜在 缓存 好 处 很 容易 被 加 载 对 象 域 的 开销 所 掩盖 。 

如 果 某 个 对 象 不 包含 指针 ， 则 无 须 加 载 其 任意 一 个 域 。 尽 管 不 同 语言 和 不 同 应 用 程序 之 
间 的 差别 较 大 ， 但 无 论 如 何 ， 堆 中 都 很 可 能 存在 相当 多 的 不 包含 用 户 自 定义 指针 的 对 象 。 对 
象 是 否 包含 指针 取决 于 该 对 象 的 类 型 ， 一 种 判定 的 方式 是 根据 对 象 头 部 中 的 类 型 信息 槽 决 
定 ， 也 可 以 根据 对 象 的 地 址 (address) 获取 其 类 型 信息 ， 例 如 当 同 种 类 型 的 对 象 在 堆 中 集中 
排列 时 。Lisp 系统 通常 使 用 页 禾 分 配 (big bag of pages allocation, BiBoP) 技术 进行 分 配 ， 
即 仅 在 一 页 中 分 配 一 种 类 型 的 对 象 (例如 cons 单元 )， 从 而 将 类 型 信息 与 页 而 非 单个 对 象 相 
关联 [Foderaro 等 ，1985]。 同 样 也 可 以 简单 地 将 全 指针 对 象 和 无 指针 对 象 隔离 。 历 史上 还 曾 
经 出 现 过 将 类 型 信息 编码 进 指针 的 方案 [Steenkiste，1987]。 

Boehm[2000] 发 现 标 记过 程 的 开销 决定 着 回收 时 间 : 在 Intel Pentium 亚 系 统 中 ， 预 取 对 
象 第 一 个 指针 域 的 开销 通常 会 占 到 标记 该 对 象 总 开销 的 三 分 之 一 。 为 此 Boehm 提出 一 种 友 
色 预 取 (prefetching on gray) 技术 ， 即 当 对 象 为 灰色 时 〈 即 被 添加 到 标记 栈 时 ， 见 算法 2.2 
中 第 20 行 )， 预 取 其 第 一 个 高 速 缓存 行 中 的 数据 ， 如 果 被 扫描 的 对 象 很 大 ， 则 预 取 适当 数量 
的 高 速 缓存 行 。 然 而 ， 这 种 技术 依赖 于 预 取 时 间 ， 如 果 过 早 地 进行 高 速 缓存 行 预 取 ， 则 数据 
很 可 能 在 得 到 使 用 之 前 就 被 换 出 ， 而 过 晚 Pg 
地 预 取 则 会 导致 高 速 缓存 不 命中 。 

Cher 等 [2004 年 ] 观察 到 ， 高 速 缓存 行 
的 预 取 遵循 广度 优先 ( breadth-first)、 先 进 
先 出 (first-in，first-out，FIFO) 顺序 ， 而 


标记 一 清扫 算法 对 图 的 遍历 却 遵循 深度 优 | FR 
先 (depth-first), A t % Œ (last-in, first- £) remove () 
out, LIFO) 顺序 。 他 们 的 解决 方案 是 在 标 | met (1 | ere 


记 栈 之 前 增加 一 个 先进 先 出 队列 (如 图 2.2、 brick Line 
算法 2.6 所 示 )。 与 普通 的 标记 过 程 类 似 ， j 
用 mark 方法 将 对 象 加 入 工作 列表 的 方式 依 ” 图 2.2 使 用 先进 先 出 预 取 缓 冲 器 的 标记 过 程 。 将 对 


然 是 将 其 压 人 标记 栈 ， 而 当 从 工作 列表 中 象 加 入 工作 列表 的 方法 依然 是 将 其 压 人 标记 
获取 一 个 对 象 时 ， 回 收 器 将 栈 顶 对 象 弹出 栈 ， 然 而 当 从 工作 列表 中 移出 一 个 对 象 时 ， 
并 将 其 追加 到 队 尾 ， 而 用 mark 方法 所 处 理 回收 器 先 从 预 取 缓 冲 区 中 获取 最 老 的 元 素 ， 
的 对 象 则 是 队列 中 最 老 的 对 象 。 回 收 器 会 然后 再 从 标记 栈 项 弹出 一 个 对 象 并 将 其 补 人 
对 从 栈 顶 弹出 的 对 象 进行 预 了 到， 队列 的 长 FIFO。 在 对 象 在 预 取 缓冲 区 中 停留 的 这 段 时 
度 将 决定 预 取 的 距离 。 在 对 象 从 栈 中 弹出 间 内 ， 回 收 器 会 将 其 预 取 到 高 速 缓存 中 


之 后 ， 对 其 进行 少量 的 预 取 工 作 可 以 确保 要 扫描 的 对 象 已 经 加 载 到 高 速 缓存 中 ， 从 而 减少 高 
速 缓存 不 命中 对 标记 过 程 的 影响 。 


算法 2.6 ”基于 先进 先 出 预 取 缓 冲 区 的 标记 过 程 


1 add(worklist, item): 
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markStack + getStack(worklist) 
push(markStack, item) 


markStack + getStack(worklist) 
addr ¢ pop(markStack) 
prefetch(addr) 
fifo + getFifo(worklist) 

0 prepend(fifo, addr) 

n return remove(fifo) 


2 
3 
4 
s remove(worklist): 
6 
7 
8 
9 


基于 先进 先 出 队列 进行 对 象 预 取 可 以 确保 mark 方法 在 扫描 对 象 时 免 受 高 速 缓存 不 命中 
的 影响 ( 见 算法 2.2 中 第 16 ~ 17 行 )， 但 回收 器 检测 和 设置 对 象 子 节点 标记 位 的 操作 依然 可 
能 受到 高 速 缓存 不 命中 的 影响 ( 见 算法 2.2 中 第 18 行 )。Garner 等 [2007] 通过 对 mark 方法 
中 追踪 循环 的 重组 来 达到 更 好 的 预 取 效 果 。 在 算法 2.2 中 ， 对 象 图 中 的 每 个 存活 节点 都 会 经 
历 一 次 压 人 标记 栈 的 过 程 ， 而 另 一 种 方案 是 将 对 象 图 中 的 每 条 边 都 遍历 和 压 人 标记 栈 一 次 ， 
即 对 于 未 被 标记 对 象 的 后 代 ， 回 收 器 并 不 判断 其 是 否 已 经 被 标记 过 ， 而 是 无 条 件 地 将 其 加 入 
工作 列表 ( 见 算 法 2.7 )。 对 象 图 中 边 的 数量 通常 大 于 节点 数 (Garner 等 声称 ， 在 典型 的 Java 
应 用 程序 中 边 的 数量 会 比 节点 数量 多 大 约 40%)， 因 此 将 边 加 入 工作 列表 的 方案 不 但 会 花费 
更 多 的 指令 ， 而 且 需 要 更 大 的 工作 列表 。 然 而 ， 如 果 在 工作 列表 中 增 、 删 这 些 额 外 对 象 的 开 
销 足 够 小 ,那么 提升 高 速 缓存 命中 率 的 收益 将 超过 这 些 额 外 工作 的 开销 。 算 法 2.7 将 标记 操 
作 从 内 部 循环 提出 ， 因 此 isMarkea 和 Pointers 等 可 能 导致 高 速 缓存 不 命中 的 方法 所 操作 的 
将 是 已 被 先进 先 出 队列 预 取 的 同一 对 象 obj。Garner 等 发 现 ， 即 使 不 使 用 软件 预 取 ， 追 踪 边 
也 比 追 踪 节 点 更 能 改善 性 能 ， 他 们 猜测 ， 循 环 结构 的 变化 以 及 先进 先 出 队列 的 使 用 可 以 提升 
内 存 访问 模式 的 可 预测 性 ， 进 而 允许 更 加 积极 的 硬件 预测 行为 。 


算法 2.7 标记 对 和 象 图 的 边 而 非 节 点 


1 mark(): 
2 while not isEmpty(worklist) 

3 obj + remove(worklist) 

4 if not isMarked(obj) 

5 setMarked(obj) 

6 for each fld in Pointers(ob}) 
7 child + fid 

8 if child # null 

9 add(worklist, child) 


2.7 需要 考虑 的 问题 


作为 第 一 种 被 提出 的 垃圾 回收 算法 [McCarthy, 1960], 标记 一 清扫 回收 可 谓 历 史 久 远 ， 
但 其 对 于 开发 者 和 用 户 仍 具有 一 定 的 吸引 力 ， 相 关 原 因 如 下 。 


2.7.1 赋值 器 开销 


最 简单 的 标记 - 清扫 回收 器 不 会 给 赋值 器 带 来 任何 额外 的 读 写 开销 ， 相 比 之 下 ， 引 用 计 
数 算法 〈 参 见 第 5 章 ) 则 会 引入 显著 的 额外 开销 。 对 于 那些 赋值 器 和 回收 器 之 间 需 要 一 定 同 
步 操作 的 更 加 复杂 的 回收 器 ， 标 记 - 清扫 算法 也 可 以 作为 其 基本 算法 之 一 。 分 代 回 收 器 ( 参 
见 第 9 章 )、 并 发 回收 器 和 增 量 回收 器 (参见 第 15 章 ) 都 要 求 赋值 器 在 修改 指针 时 通知 回收 
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器 ， 但 对 于 程序 的 整体 执行 时 间 而 言 ， 这 一 开销 通常 较 小 。 
2.7.2 Fue 


使 用 懒惰 清扫 策略 的 标记 一 清扫 回收 器 通常 具有 较 高 的 吞吐 量 。 标 记 阶 段 的 开销 相对 较 
小 ， 且 其 主要 取决 于 指针 追踪 的 开销 。 对 于 已 发 现 的 存活 对 象 ， 标 记 - 清扫 回收 器 通 常 只 需 
要 简单 地 设置 一 个 标记 位 或 者 标记 字 节 ， 而 半 区 复制 式 回收 器 (参见 第 4 章 ) 和 标记 一 整理 
回收 器 (参见 第 3 章 ) 则 必须 复制 或 者 移动 整个 对 象 。 与 其 他 追踪 式 回收 器 类 似 ， 标 记 - 清 
扫 回 收 需 在 执行 过 程 中 需要 挂 起 所 有 赋值 器 线程 ， 回 收 停顿 时 间 取 决 于 应 用 程序 的 运行 及 其 
输入 。 对 于 大 型 系统 而 言 ， 回 收 停顿 时 间 极 有 可 能 达到 数秒 甚至 更 长 。 


2.7.3 空间 利用 率 


与 基于 半 区 复制 的 回收 策略 相 比 ， 标 记 一 清扫 回收 显然 具有 较 高 的 空间 利用 率 。 同 时 与 
引用 计数 算法 相 比 ， 标 记 一 清扫 回收 的 空间 利用 率 仍然 较 高 。 将 标记 位 放 在 对 象 头 部 基本 不 
会 产生 额外 的 空间 开销 ， 而 如 果 使 用 位 图 来 保存 标记 位 ， 则 额外 空间 开销 的 大 小 取决 于 对 象 


的 字 节 对 齐 要 求 ， 但 其 总 大 小 不 会 超过 堆 的 字 节 对 齐 要 求 的 个 数 〔 即 堆 空间 的 二 或 二 ， 具 


体 的 值 取决 于 堆 的 组 织 架构 )。 相 比 之 下 ， 引 用 计数 算法 则 需要 占用 对 象 头 部 一 个 完整 的 槽 
来 记录 引用 计数 (尽管 可 以 通过 限制 引用 计数 最 大 值 的 方法 来 减少 所 需 的 空间 )， 复 制式 回收 
器 必须 将 可 用 堆 划 分 为 两 个 大 小 相等 的 半 区 ， 且 在 任意 时 间 里 只 有 一 个 半 区 可 用 ， 因 而 内 存 
空间 利用 率 更 低 。 但 在 另 一 方面 ， 非 整理 式 回收 器 (如 标记 -清扫 回收 以 及 引用 计数 ) 通常 
需要 依赖 更 加 复杂 的 分 配器 (如 分 区 适应 空闲 链表 分 配 )， 这 通常 会 给 回收 器 带 来 不 可 忽视 的 
开销 。 同 时 ， 非 整理 式 回收 器 通常 都 会 存在 内 存 碎 片 ， 这 也 会 对 空间 利用 率 造 成 一 定 影响 。 

和 其 他 的 追踪 式 回收 算法 一 样 ， 标 记 一 清扫 算法 在 回收 所 有 死亡 对 象 的 空间 之 前 必须 先 
确定 空间 中 所 有 的 存活 对 象 。 这 是 一 项 昂贵 的 操作 ， 并 且 应 当 偶尔 执行 。 这 也 意味 着 追踪 式 
回收 器 必须 在 堆 中 保留 一 定 的 空间 来 执行 这 项 操作 。 如 果 存 活 对 象 在 堆 中 的 比例 过 大 ， 且 内 
存 分 配 速 度 较 快 ， 那么 标记 一 清扫 回收 器 将 会 频繁 执行 回收 ， 从 而 引发 程序 性 能 上 的 颠 艇 。 
对 于 中 到 大 型 的 堆 ， 可 能 需要 在 堆 中 保留 20% 一 50% 的 空间 [Jones，1996]， 而 Herts 和 
Berger[2005] 发 现 ， 使 用 标记 一 清扫 回收 的 Java 程序 如 果 要 达到 与 显 式 释放 相同 的 吞吐 率 ， 
需要 比 后 者 多 使 用 数 倍 的 堆 空 间 。 


2.7.4 移动， 还 是 不 移动 


非 移 动 式 回收 算法 的 优点 和 缺点 并 存 。 其 优点 在 于 ， 不 移动 对 象 的 特征 使 得 标记 一 清扫 
算法 可 以 用 于 那些 编译 器 与 回收 器 “不 合作 ”的 场景 ( 见 第 11 章 )。 在 缺乏 赋值 器 根 集合 以 
及 对 象 域 详细 类 型 信息 的 条 件 下 ， 回 收 器 不 敢 贸然 将 对 象 移动 到 新 的 位 置 ， 因 为 程序 的 “ 根 
集合 ”可 能 并 不 是 指针 ， 而 是 其 他 类 型 的 用 户 数据 。 某 些 场景 下 可 以 使 用 混合 型 主体 复制 
回收 (hybrid mostly-copying collection) [Bartlett，1998a ; Hosking，2006]， 此 时 回收 器 仍 
需 保 守 地 处 理 程序 根 集合 ( 即 如果 某 个 槽 看 起 来 像 是 指针 ， 那 么 就 必须 假设 它 确 实 是 指针 )， 
并 且 确 保 不 移动 根 集合 所 包含 的 引用 ， 但 回收 器 却 可 以 获取 堆 中 对 象 的 精确 类 型 信息 ， 因 而 
只 要 对 象 没 有 被 钉 住 (pinned)， 回 收回 就 可 以 将 其 移动 。 

出 于 安全 考虑 ， 在 “不 合作 ”系统 中 工作 的 保守 式 回 收 器 不 能 修改 用 户 数据 ， 包 括 对 象 
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头 域 。 这 同时 也 要 求 回 收 器 尽量 将 其 元 数据 与 用 户 数据 或 者 其 他 运行 时 系统 数据 隔离 ， 以 避 
免 被 回收 器 破坏 。 基 于 上 述 两 个 原因 ， 使 用 位 图 标记 的 方案 要 比 将 标记 位 保存 在 对 象 头 部 的 
方案 更 加 安全 。 

非 移 动 式 回收 算法 的 主要 问题 在 于 ， 在 长 期 运行 的 应 用 程序 中 堆 可 能 会 逐渐 碎片 化 。 


非 移动 式 内 存 分 配器 所 需 的 空间 可 能 会 比 所 有 对 象 总 大 小 还 要 大 O ( ) (min Pima 


是 对 象 大 小 可 能 达到 的 最 小 值 和 最 大 值 ) 倍 ， 因 此 非 整理 式 回收 器 会 比 整 理 式 回收 器 的 
回收 频率 更 高 。 需 要 注意 的 是 ， 所 有 的 追踪 式 回 收 器 都 需要 在 堆 中 保留 足够 的 额外 空间 
(20% 一 50%)， 目 的 是 避免 回收 器 出 现 性 能 颠 艇 。 

为 避免 堆 空间 过 度 碎 片 化 导致 的 性 能 下 降 ， 许 多 使 用 标记 = 清扫 策略 的 回收 器 会 定期 使 
用 标记 一 整理 等 算法 进行 堆 的 整理 。 对 于 对 象 大 小 比例 经 常 变化 ， 或 者 要 分 配 很 多 大 对 象 的 
应 用 程序 而 言 ， 这 一 方法 通常 更 加 有 效 。 如 果 程序 在 未 来 的 运行 过 程 中 会 分 配 更 大 的 对 象 ， 
可 能 导致 堆 中 许多 小 的 空洞 无 法 被 分 配 出 去 ， 而 如 果 后 续 分 配 的 对 象 较 小 ， 则 这 些 对 象 将 被 
分 配 在 较 大 对 象 曾 经 占用 的 空间 中 ， 由 此 造成 的 间隙 则 会 被 浪费 。 然 而 ， 如 果 充 分 利用 “对 
象 成 篮 出现 、 成 批 死 亡 ” 这 一 特征 来 指导 堆 的 管理 ， 可 以 减轻 堆 的 碎片 化 趋势 [Dimpsey 等 ， 
2000; Blackburn and McKinley，2008]。 分 区 适应 分 配 也 可 以 减少 对 整理 过 程 的 依赖 。 
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内 存 碎片 化 ?是 非 移动 式 回收 器 无 法 解决 的 问题 之 一 ， 即 : 尽管 堆 中 仍 有 可 用 空间 ， 但 
是 内 存 管理 器 却 无 法 找到 一 块 连续 内 存 块 来 满足 较 大 对 象 的 分 配 需求 ， 或 者 需要 花费 较 长 时 
间 才 能 找到 合适 的 空闲 内 存 。 上 一 章 我 们 提 到 ， 对 于 不 需要 分 配 很 大 对 象 ， 或 者 对 象 大 小 相 
差 不 大 的 程序 ， 分 配器 可 以 仅 在 单个 内 存 块 中 分 配 相 同 大 小 的 对 象 ， 从 而 缓解 内 存 碎片 问题 
[Boehm and Weiser，1988]。 但 对 于 许多 长 期 运行 的 程序 ， 如 果 通 过 非 移 动 式 回收 器 进行 内 
存 管理 ， 通 常会 出 现 碎 片 化 问题 ， 进 而 导致 程序 性 能 的 下 降 。 

在 接 下 来 的 两 章 中 ， 我 们 讨论 两 种 对 堆 中 存活 对 象 进行 整理 (compact) 以 降低 外 部 碎 
片 (external fragmentation) 的 回收 策略 。 堆 整理 的 最 大 优势 在 于 ， 它 允许 极为 快速 的 顺序 分 
配 ， 即 简单 地 进行 堆 上 限 判断 ， 然 后 根据 所 需 空间 的 大 小 阶 跃 式 地 移动 空闲 指针 (我 们 将 在 
第 7 章 中 讨论 内 存 分 配 机 制 )。 本 章 我 们 讨论 的 是 原 地 整理 98 策略， 即将 对 象 整 理 到 相同 区 
域 的 一 端 。 下 一 章 我 们 将 讨论 复制 式 回收 策略 ， 即 将 存活 对 象 从 一 个 区 域 移动 到 另 一 个 区 域 
(例如 在 两 个 半 区 之 间 )。 

标记 一 整理 算法 的 执行 需要 经 过 数 个 阶段 :首先 是 标记 阶段 ， 其 相关 内 容 我 们 在 上 一 章 
已 经 讨论 过 ; 然后 是 整理 阶段 ， 即 移动 存活 对 象 ， 同 时 更 新 存活 对 象 中 所 有 指向 被 移动 对 象 
的 指针 。 在 不 同 算法 中 ， 堆 的 遍历 次 数 、 整 理 过 程 所 遵循 的 顺序 、 对 象 的 迁移 方式 都 有 所 不 
同 。 整 理 顺序 (compaction order) 会 影响 到 程序 的 局 部 性 。 移 动 式 回 收 器 重 排 堆 中 对 象 时 所 
遵循 的 顺序 包括 以 下 3 种 : 

e 任意 顺序 : 对 象 的 移动 方式 与 它们 的 原始 排列 顺序 和 引用 关系 无 关 。 

o 线性 顺序 : 将 具有 关联 关系 的 对 象 排列 在 一 起 ， 如 具有 引用 关系 的 对 象 ， 或 者 同一 

数据 结构 中 的 相 邻 对 象 。 
o 滑动 顺序 : 将 对 象 滑动 到 堆 的 一 端 ,“ 挤 出 ”垃圾 ， 从 而 保持 对 象 在 堆 中 原 有 的 分 配 
顺序 。 

我 们 所 了 解 的 整理 式 回收 器 大 多 遵循 任意 顺序 或 者 滑动 顺序 。 任 意 顺 序 整 理 实现 简单 ， 
且 执 行 速度 快 ， 特 别 是 对 于 所 有 对 象 均 大 小 相等 的 情况 。 但 任意 顺序 整理 很 可 能 会 将 原本 相 
邻 的 对 象 分 散 到 不 同 的 高 速 缓存 行 或 者 虚拟 内 存 页 中 ， 从 而 降低 赋值 器 空间 局 部 性 。 所 有 现 
代 标 记 一 整理 回收 器 均 使 用 滑动 整理 顺序 ， 它 不 改变 对 象 的 相对 排列 顺序 ， 因 此 不 会 影响 赋 
值 器 局 部 性 。 复 制式 回收 器 甚至 可 以 通过 改变 对 象 排 布 顺序 的 方式 将 对 象 与 其 父 节 点 或 者 兄 
弟 节点 排列 得 更 近 ， 从 而 提升 赋值 器 的 局 部 性 。 近 期 的 一 些 实验 表明 ， 由 任意 顺序 整理 导致 
的 对 象 重 排列 会 大 幅 降低 应 用 程序 的 吞吐 量 [Abuaiadh 等 ，2004]。 

整理 算法 可 能 会 存在 多 种 限制 : 任意 顺序 算法 只 能 处 理 单一 大 小 的 对 象 ， 或 者 只 能 对 不 
同 大 小 的 对 象 分 别 进行 整理 ; 整理 过 程 需要 两 次 甚至 三 次 整 堆 遍历 ; 对 象 头 部 可 能 需要 一 个 
额外 的 槽 来 保存 迁移 信息 ， 这 对 于 通用 内 存 管理 器 来 说 是 一 个 显著 的 额外 开销 。 整 理 算 法 可 


O 我 们 将 在 7.3 节 更 为 详细 地 讨论 内 存 碎 片 问 题 。 
OQ 一 些 较 旧 的 论文 中 经 常 将 其 称 为 compactifying。 
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能 对 指针 有 特定 限制 ， 如 指针 的 引用 方向 是 什么 ? 是 否 允 许 使 用 内 部 指针 ? 我 们 将 在 第 11 
章 讨论 这 些 问 题 。 

本 章 我 们 将 研究 几 种 不 同类 型 的 整理 算法 。 首 先 要 介绍 的 是 Edwards 的 双 指 针 ( two- 
finger) 回收 算法 [Saunders，1974]， 尽 管 该 算法 实现 简单 旦 执行 速度 快 , (ATT AL SHE 
中 对 象 的 原 有 布局 。 第 二 种 整理 式 回 收 算法 是 一 种 广泛 使 用 的 滑动 回收 算法 ， 即 Lisp 2 
算法 。 与 双 指针 算法 不 同 ， 该 算法 需要 在 每 个 对 象 头 部 增加 一 个 额外 的 权 来 保存 转发 地 
tik ( forwarding address)， 即 对 象 移动 的 目标 地 址 。 第 三 种 整理 算法 是 Jonkers 的 引线 整理 
(threaded compaction) 算法 [1979]， 该 算法 可 以 在 不 引入 额外 空间 开销 的 情况 下 实现 对 象 的 
滑动 整理 ， 但 它 需 要 两 次 堆 遍 历 过 程 ， 且 每 次 遍历 的 开销 都 很 高 。 本 章 所 介绍 的 最 后 一 种 整 
理 算 法 是 单 次 遍历 算法 (one-pass algorithm)， 它 是 一 种 现代 的 滑动 回收 算法 ， 其 执行 速度 
快 ， 且 不 需要 在 每 个 对 象 上 引入 额外 的 空间 开销 。 该 算法 中 的 转发 地 址 可 以 实时 计算 得 出 。 
所 有 整理 式 回收 算法 的 执行 都 遵从 如 下 范式 : 


atomic collect(): 
markFromRoot s() 
compact() 


3.1 双 指 针 整 理 算 法 


Edwards 的 双 指 针 算 法 [Saunders，1974] 属于 任意 顺序 整理 算法 ， 其 需要 两 次 扒 遍 历 过 
程 ， 最 佳 适 用 场景 为 只 包含 固定 大 小 对 象 的 区 域 。 该 算法 的 原理 十 分 简单 ， 即 对 于 某 一 区 域 
中 的 待 整理 存活 对 象 ， 回 收 器 可 以 事先 计算 出 该 区 域 整理 完成 后 存活 对 象 的 “高 水 位 标记 ” 
(high-water mark)， 地 址 大 于 该 阔 值 的 存活 对 象 都 将 被 移动 到 该 阀 值 以 下 。 在 算法 3.1 的 初 
始 阶 段 ， 指 针 tree 指向 区 域 始 端 ， 指 针 scan 指向 区 域 未 端 。 在 第 一 次 遍历 过 程 中 ， 回 收 器 
不 断 向 前 移动 指针 free， 直 到 在 堆 中 发 现 空 除 〈 即 未 标记 对 象 ) Aik; 类 似 地 ， 不 断 向 后 移 
动 指针 scan 直到 发 现存 活 对 象 为 止 。 如 果 指 针 tree 和 指针 scan 发 生 交错 ， 则 该 阶段 结束 ， 
否则 便 将 指针 scan 所 指向 的 对 象 移动 到 指针 tree 的 位 置 ， 同 时 将 原 有 对 象 中 的 某 个 域 ( 指 
针 scan 所 指向 的 ) 修改 为 转发 地 址 ， 然 后 继续 进行 处 理 。 图 3.1 描述 了 这 一 过 程 ， 其 中 对 象 
A 被 移动 到 新 的 位 置 A'， 且 在 对 象 A PASE MY ( 即 第 一 个 槽 ) 中 记录 了 A' 的 地 址 。 值 得 
注意 的 是 ， 该 算法 的 整理 质量 取决 于 指针 tree 所 指向 的 空隙 与 指针 scan 所 指向 的 存活 对 象 
大 小 的 匹配 程度 。 除 非 对 象 大 小 固定 ， 否 则 碎片 的 整理 程度 一 定 很 低 。 该 阶段 完成 后 ， 指 针 
free 将 位 于 存活 对 象 边 界 。 回 收 器 的 第 二 次 遍历 过 程 会 将 指向 存活 对 象 边界 之 外 的 指针 更 
新 为 其 目标 对 象 中 所 记录 的 转发 地 址 ， 即 对 象 的 新 位 置 。 


wi 


高 水 位 阔 值 





图 3.1 Edwards 的 双 指 针 算 法 。 该 算法 将 堆 顶 的 存活 对 象 移动 到 堆 底 的 空 阶 中 。 此 处 将 对 象 A 移动 到 
A'。 当 指针 free 和 指针 scan 交汇 时 ， 算 法 结束 


算法 3.1 双 指 针 整 理 算法 


1 compact(): 
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relocate(HeapStart, HeapEnd) 
updateReferences(HeapStart, free) 


free + start 


2 
3 
4 
s relocate(start, end): 
6 
7 scan + end 

8 

9 


while free < scan 


0 while isMarked(free) 

u unsetMarked(free) 

2 free + free + size(free) /* 寻找 下 一 个 空洞 */ 
13 

“4 while not isMarked(scan) & scan > free 

15 scan + scan 一 size(scan) /* 寻找 前 一 个 存活 对 象 */ 
16 

17 if scan > free 

18 unsetMarked(scan) 

19 move(scan, free) 

20 *scan + free /* 记录 转发 地 址 (破坏 性 地 ) */ 
a free + free + size(free) 

2 scan + scan 一 size(scan) 


u updateReferences(start, end): 


3 for each fld in Roots /* 更 新 指向 被 移动 对 象 的 根 */ 
26 ref + xfld 

27 if ref > end 

28 *fld + xref /* 使 用 上 一 次 遍历 过 程 中 记录 的 转发 地 址 */ 
29 

30 scan + start 


a while scan < end /* 更 新 存活 区 的 域 */ 
for each fld in Pointers(scan) 


33 ref + *fld 

34 if ref > end 

5 *fld + *ref /* 使 用 上 一 次 遍历 过 程 中 记录 的 转发 地 址 */ 
% scan + scan + size(scan) /* 下 一 个 对 象 */ 


双 指 针 算 法 的 优势 在 于 简单 快速 ， 且 每 次 遍历 过 程 的 操作 较 少 。 转 发 地 址 是 在 对 象 移动 
之 后 才 写 入 的 ， 所 以 不 会 存在 任何 信息 的 丢失 ， 因 此 算法 无 需 使 用 额外 的 空间 来 记录 转发 地 
址 。 该 算法 支持 内 部 指针 。 其 内 存 访问 模式 是 可 预测 的 ， 因 此 也 支持 预 取 (不 论 是 硬件 预 取 
还 是 软件 预 取 )， 进 而 可 以 提升 回收 器 的 高 速 缓存 友好 性 。 但 是 ，relocate 中 指针 scan 的 移 
动 要 求 回 收 器 能 够 “倒退 式 ” 地 进行 堆 解析 ， 这 便 需 要 将 标记 位 保存 在 一 个 独立 的 位 图 中 ， 
或 者 在 对 象 分 配 时 即 在 位 图 中 记录 其 首 地 址 。 不 幸 的 是 ， 双 指针 算法 重 排列 堆 中 对 象 的 顺序 
是 任意 式 的 ， 因 此 会 破坏 赋值 器 的 局 部 性 。 然 而 ， 由 于 相关 对 象 总 是 成 复 诞 生 、 成 批 死 亡 ， 
我 们 可 以 将 连续 存活 对 象 整体 移动 到 较 大 空隙 中 ， 而 不 是 逐个 进行 移动 ， 所 以 在 某 些 情况 下 
赋值 器 的 局 部 性 甚至 有 可 能 得 到 提升 。 在 本 章 的 后 续 部 分 ， 我 们 将 研究 滑动 式 回收 器 ， 它 们 
在 重 排列 存活 对 象 时 将 保持 其 现 有 的 排列 顺序 。 


3.2 Lisp 2 算法 

Lisp 2 回收 算法 ( 见 算法 3.2) 是 一 种 历史 悠久 的 回收 算法 ， 无 论 是 其 原始 形态 ， 还 是 
为 适应 并 行 回收 的 改进 版 本 [Flood 等 ，2001]， 都 得 到 了 广泛 应 用 。 该 回收 器 可 以 用 于 管理 
包含 多 种 大 小 对 象 的 空间 ， 尽 管 该 算法 需要 三 次 堆 遍 历 ， 但 是 每 次 遍历 要 做 的 工作 都 不 多 
(只 是 相对 而 言 ， 如 与 引线 整理 器 相 比 )。 虽 然 所 有 标记 一 整理 回收 器 的 吞吐 量 都 较 低 ， 但 是 
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Cohen fil Nicolau[1983] 通过 一 系列 复杂 研究 发 现 ，Lisp 2 算法 在 他 们 所 研究 过 的 整理 式 算 
法 中 算是 最 快 的。 但 是 他 们 并 没有 考虑 高 速 缓存 或 者 页 相关 行为 ， 而 这 一 因素 通常 又 十 分 重 
要 。Lisp 2 算法 的 主要 缺陷 在 于 ， 它 需要 在 每 个 对 象 头 部 额外 增加 一 个 完整 的 头 域 来 记录 转 
发 地 址 (标记 位 也 可 以 复 用 该 域 )。 

在 标记 阶段 结束 之 后 的 第 一 次 堆 遍 历 过 程 中 ， 回 收 器 将 会 计算 出 每 个 存活 对 象 的 最 
yh hit ( 即 转 发 地 址 )， 并 且 将 其 保存 在 对 象 的 forwardingaddress 域 中 ( 见 算法 3.2). 
computeLocations 方法 需要 3 个 参数 : 堆 中 待 整理 区 域 的 起 始 地 址 、 结 束 地 址 、 整 理 目标 区 
域 起 始 地 址 。 目 标 区 域 通 常 与 待 整理 区 域 相 同 ， 但 并 行 回 收 器 可 能 会 为 每 个 线程 设 定 不 同 的 
来 源 和 目标 区 域 。 用 computeLocations 方法 在 堆 中 移动 两 个 指针 : 指针 scan 对 来 源 区 域 中 
的 所 有 (存活 的 或 死亡 的 ) 对 象 进行 迭代 ， 指 针 tree 指向 目标 区 域 中 的 下 一 个 空闲 位 置 。 如 
果 指 针 scan 遍历 到 的 对 象 是 存活 的 ， 意 味 着 该 对 象 (最 终 ) 会 被 移动 到 指针 tree 所 指向 的 
位 置 。 此 时 回收 器 将 指针 free 写 人 对 象 的 forwardingaddress 域 ， 然 后 根据 对 象 的 大 小 向 
前 移动 指针 tree (需要 考虑 对 齐 填充 )。 如 果 遍 历 到 死亡 对 象 ， 则 将 其 忽略 。 

在 第 二 次 堆 遍历 过 程 (算法 3.2 中 的 updaterReferences 方法 ) 中 ， 回 收 器 将 使 用 对 象 头 
域 中 记录 的 转发 地 址 来 更 新 赋值 器 线程 根 以 及 被 标记 对 象 中 的 引用 ， 该 操作 将 确保 它们 指向 
对 象 的 新 位 置 。 在 第 三 次 遍历 过 程 中 , relocate 最 终 将 每 个 存活 对 象 移动 到 其 新 的 目标 位 置 。 


算法 3.2 Lisp2 整理 算法 


compact (): 
computeLocations(HeapStart, HeapEnd, HeapStart) 
updateReferences(HeapStart, HeapEnd) 
relocate(HeapStart, HeapEnd) 


computeLocations(start, end, toRegion): 
scan ¢ start 
free + toRegion 
while scan < end 


10 if isMarked(scan) 

u forwardingAddress(scan) + free 
2 free + free + size(scan) 

13 scan + scan 十 size(scan) 


5 updateReferences(start, end): 


6 for each fld in Roots /* 更 新 根 */ 
17 ref < xfld 

18 if ref ~ null 

19 *fld + forwardingAddress(ref) 

2 

a scan + start /* 更 新 域 */ 


while scan < end 
if isMarked(scan) 
for each fld in Pointers(scan) 
if *fld # null 
*fld + forwardingAddress(*fld) 
scan + scan + size(scan) 
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relocate(start, end): 
scan ¢ start 
while scan < end 
if isMarked(scan) 
dest + forwardingAddress(scan) 


88 8 


34 
2 
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u move(scan, dest) 
35 unsetMarked(dest) 
% scan + scan + size(scan) 


需要 注意 的 是 ， 遍历 的 方向 (从 低地 址 到 高 地 址 ) 与 对 象 的 移动 方向 (从 高 地 址 到 低地 
HE) 相反 ， 这 便 可 以 保证 回收 器 在 第 三 次 遍历 过 程 中 复制 对 象 时 其 目的 地 址 已 经 腾空 。 某 些 
并 行 回收 器 将 堆 划 分 为 多 个 内 存 块 ， 并 且 在 相 邻 内 存 块 上 使 用 不 同 的 滑动 方向 ， 相 对 于 每 个 
内 存 块 都 向 同一 个 方向 滑动 的 算法 ， 该 算法 可 以 产生 较 大 的 对 象 “ 聚 集 ”， 进 而 产生 更 大 的 
空闲 内 存 间 隙 [Flood 等 ，2001]， 图 14.8 即 是 一 个 示例 。 

Lisp 2 算法 可 以 在 多 方面 进行 改进 : 标记 -清扫 回收 器 在 清扫 阶段 的 数据 预 取 技 术 也 可 
以 应 用 在 Lisp 2 算法 中 ; 在 computeLocations 方法 的 第 10 行 之 后 ， 回 收 器 可 以 将 相 邻 垃圾 
合并 ， 以 提升 后 续 遍 历 过 程 的 性 能 。 


3.3 引线 整理 算法 

Lisp 2 算法 的 主要 缺陷 有 两 个 : 第 一 ， 算 法 需要 三 次 完整 的 堆 遍 历 过 程 ; 第 二 ， 每 个 对 
象 需要 额外 的 空间 来 记录 转发 地 址 ， 这 两 个 缺陷 可 以 说 是 互 为 因果 。 滑 动 整理 式 回收 是 一 种 
具有 破坏 性 的 操作 ， 存 活 对 象 的 新 副本 会 覆盖 其 他 存活 对 象 的 原 有 副本 ， 因 此 在 移动 对 象 、 
更 新 引用 之 前 ， 回 收 器 必须 记录 其 转发 地 址 。 由 于 Lisp 2 算法 会 占用 对 象 头 部 的 一 个 槽 来 记 
录 转 发 地 址 ， 因 此 它 是 非 破坏 性 的 。 在 双 指 针 算 法 中 ， 转 发 地 址 记录 在 存活 对 象 边界 之 外 的 
已 经 移动 过 的 对 象 上 ， 因 此 它 也 是 非 破坏 性 的 ， 但 是 它 的 任意 整理 顺序 无 法 令 人 接受 。 

Fisher[1974] 通 过 一 种 不 同 的 策 


略 解决 了 指针 更 新 问题 ， 即 “引线 ” “Ati | 引 | i | 
(threading)， 该 算法 不 需要 任何 额外 存 
储 ， 且 支持 滑动 整理 。 引 线 算法 要 求 对 

* 


象 头 部 存在 足够 的 空间 来 保存 一 个 地 址 ' 
(如 果 必 要 可 以 覆盖 头 域 的 其 他 数据 )， 这 a) 引线 之 前 : 三 个 对 象 引 用 了 对 象 N 
一 要 求 并 不 苛刻 ， 但 回收 器 所 记录 的 地 


址 必须 要 能 与 其 他 值 区 分 ， 要 满足 这 一 ws 
要 求 可 能 有 些 困难 。 最 知名 的 引线 算法 。“ rn 


当 属 Morris[1978，1979，1982] 的 版 本 ， 
但 是 Jonkers[1979] 的 版 本 限制 更 少 ( 例 N 
如 在 指针 方向 上 )。 引 线 的 目的 是 通过 对 
象 N 可 以 找到 所 有 引用 了 该 对 象 的 对 象 ， b) 引线 之 后 : 所 有 指向 对 象 N 的 指针 都 被 “引线 "， 因 此 可 
演示 了 如 何在 引线 之 后 找到 之 前 引用 了 “(临时 地 ) 移动 到 对 象 A 中 引用 了 对 象 N 的 第 一 个 域 中 
对 象 N 的 对 象 。 需 要 注意 的 是 ， 经 过 TAR 
图 3.2b 中 的 引线 操作 之 后 ， 对 象 N 头 部 ete erty 
info 域 的 值 被 写 入 到 对 象 A 的 一 个 指针 域 中 ， 当 回收 器 通过 指针 追踪 来 逆 引 线 ( unthread ), 
更 新 引用 时 ， 必 须要 能 分 辨 出 对 象 A 的 这 一 域 中 记录 的 并 非 引线 指针 。 
Jonkers 的 算法 需要 两 次 堆 遍 历 过 程 ， 第 一 次 遍历 实现 堆 中 前 向 指针 2 的 引线 ， 第 二 次 饥 


O 即 从 低地 址 指向 高 地 址 的 指针 。 一 一 译 者 注 
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历 实现 堆 中 后 向 指针 8 的 引线 ( 见 算法 3.3 )。 在 第 一 次 遍历 开始 时 ， 回 收 器 先 对 根 进行 引线 ， 37] 
然后 在 堆 中 从 头 到 尾 进行 扫描 ， 与 此 同时 ,将 所 有 存活 对 象 的 大 小 累加 ， 最 终 以 此 来 更 新 指 

ft free。 在 图 3.2 中 ， 如 果 仅 考虑 存活 对 象 N， 那 么 该 算法 很 容易 理解 : 当 回收 器 在 第 一 次 

遍历 过 程 中 遇 到 对 象 A 时 ， 其 会 对 A 中 指向 对 象 N 的 引用 进行 引线 ， 当 遍历 到 对 象 N 时 ， 

会 完成 所 有 指向 对 象 N 的 前 向 指针 的 引线 ( 见 图 3.2b)。 此 时 回收 器 可 以 沿 着 对 象 N 的 这 条 

引线 链 完成 所 有 指向 对 象 N 的 前 向 指针 的 更 新 ， 即 将 它们 都 改写 为 指针 free， 也 就 是 对 象 

N 未 来 的 新 地 址 。 当 到 达 引 线 链 的 终点 时 ， 回 收 器 将 恢复 对 象 N 头 部 into 域 的 值 。 完 成 上 

述 步 又 之 后 ， 还 需要 增加 指针 tree, HX N 的 所 有 子 节点 进行 引线 。 第 一 次 遍历 完成 之 后 ， 

所 有 前 向 指针 都 已 经 指向 了 对 象 整理 后 的 新 地 址 ， 且 所 有 后 向 指针 都 已 完成 引线 。 第 二 次 遍 

历 过 程 则 会 根据 后 向 指针 引线 链 简单 地 更 新 指向 对 象 N 的 引用 ， 同 时 完成 对 象 N 的 移动 。 


算法 3.3 Jonkers 引线 整理 算法 


compact(): 
updat eForwardReferences() 
updat eBackwardReferences() 


1 
2 
3 
4 
5 thread(ref): /* 对 引用 进行 引线 */ 
6 if «ref Æ null 

7 xref, xxref + xxref, ref 

8 

9 update(ref, addr): /* 使 用 addr 对 所 有 引用 进行 逆 引 线 */ 
10 tmp t- *ref 

u while isReference(tmp) 

2 -xtmp, tmp ¢ addr, «tmp 

13 xref 全 tmp 


 updateForwardReferences(): 
16 for each fld in Roots 
1 thread(*fld) 


19 free + HeapStart 
scan + HeapStart 
while scan < HeapEnd 
if isMarked(scan) 
update(scan, free) /* 将 所 有 指向 scan 的 前 向 指针 都 修改 为 指针 free */ 
for each fld in Pointers(scan) 
thread(fld) 
free + free + size(scan) 
scan ¢ scan + size(scan) 
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updateBackwardReferences(): 
free + HeapStart 
scan ¢ HeapStart 
while scan < HeapEnd 
if isMarked(scan) 
update(scan, free) /* 将 所 有 指向 scan 的 后 向 的 指针 都 修改 为 指针 free */ 
move(scan, free) /* 将 scan 指向 的 对 象 移动 到 free */ 
free + free 十 size(scan) 
scan ¢ scan + size(scan) 


g 
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该 算法 的 主要 优点 在 于 不 需要 额外 的 空间 ， 尽 管 其 对 象 头 部 必须 能 够 容纳 一 个 指针 〈 且 
该 指针 必须 能 与 一 般 的 值 进行 区 分 )， 但 引线 算法 也 存在 不 少 缺 点 。 该 算法 需要 两 次 修改 对 


O 即 从 高 地 址 指向 低地 址 的 指针 。 一 一 译 者 注 
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BWR, BUENA, Pow SAFER SIA. SPREEK, Jonkers 的 算法 
中 沿 着 引线 链 进行 遍历 的 高 速 缓存 友好 性 较 差 ， 而 整个 算法 总 共 需 要 三 次 这 样 的 指针 遍历 过 
FE ( 即 : 标记 、 引 线 、 逆 引线 )。Martin[1982] 指出 ， 可 以 将 标记 过 程 与 第 一 次 整理 过 程 合并 ， 
从 而 将 回收 时 间 减 少 三 分 之 一 ,但 这 也 反映 了 指针 追踪 以 及 修改 指针 域 的 开销 之 大 。Jonkers 
的 算法 对 指针 的 修改 是 破坏 性 的 ， 其 本 质 上 是 串 行 的 ， 因 此 无 法 用 于 并 发 整理 。 例 如 在 图 
3.2b 中 ， 当 回收 器 完成 对 象 B 中 第 一 个 指针 域 的 引线 之 后 ， 堆 中 将 不 再 有 任何 能 够 反映 出 
该 域 曾经 指向 对 象 N 这 一 信息 (除非 将 对 象 N 的 地 址 存储 在 指针 链 的 未 端 ， 即 在 对 象 A 的 
头 部 中 占用 一 个 额外 的 槽 ， 但 这 破坏 了 不 使 用 额外 空间 的 本 意 )。 最 后 ，Jonkers 的 算法 不 支 
持 内 部 指针 (interior pointer)， 这 在 某 些 场景 下 可 能 是 一 个 重要 问题 。Morris[1982] 的 引线 
整理 算法 虽然 支持 内 部 指针 ， 但 其 代价 是 要 求 为 每 个 域 分 配 一 个 额外 的 标签 位 ， 且 第 二 次 整 
理 过 程 的 遍历 方向 必须 与 第 一 次 相反 (从 而 引入 了 堆 的 可 解析 性 问题 )。 
3.4 单 次 遍历 算法 

如 果 要 将 滑动 式 回 收 器 的 堆 遍 历次 数 降 低 到 两 次 (一 次 标记 、 一 次 滑动 对 象 )， 且 避 
免 昂贵 的 引线 开销 ， 那 么 就 必须 使 用 一 个 额外 的 表 来 记录 转发 地 址 。Abuaiadh 等 [2004], 
Kermany 和 Petrank[2006] 各 自 独 立 设 计 出 了 可 以 完全 满足 这 一 要 求 上 且 适 用 于 多 处 理 器 的 高 
性 能 整理 算法 : 前 者 的 算法 属于 并 行 式 、 万 物 静 止 式 算法 (使 用 多 个 整理 线程 ); 后 者 的 算 
法 可 以 配置 成 并 发 式 回收 算法 〈 人 允许 赋值 器 线程 和 回收 器 线程 同时 执行 ) 和 增 量 式 回收 算法 
(定期 挂 起 一 个 赋值 器 线程 并 简单 地 执行 小 部 分 回收 工作 )。 算 法 的 并 行 、 并 发 、 增 量 部 分 将 
在 后 面 的 章节 中 讨论 ， 本 节 主 要 关注 的 是 在 万 物 静止 条 件 下 的 核心 整理 算法 。 

这 两 种 算法 都 需要 使 用 数 个 额外 的 表 或 者 向 量 。 与 许多 回收 器 类 似 ， 标 记过 程 是 基于 位 
图 ( 即 图 3.3 中 的 标记 向 量 一 一 译 者 注 ) 进行 的 ， 每 个 位 对 应 堆 中 一 个 内 存 颗 粒 〈 即 一 个 字 )。 
在 标记 过 程 中 ， 如 果 发 现存 活 对 象 ， 则 设置 其 所 占用 空间 的 第 一 个 和 最 后 一 个 内 存 颗粒 对 应 
的 位 。 例 如 在 图 3.3 中 ， 回 收 器 会 针对 存活 对 象 ola 设置 标记 向 量 的 第 16 位 和 第 19 位 。 回 

收 器 在 后 续 的 整理 阶段 可 以 通过 对 标记 向 量 的 分 析 计 算出 任意 存活 对 象 的 大 小 。 


offsetInBlock (3) 标记 向 量 
ae | 





0 offsetInBlock 2 3 
13.3 Compressor 回收 器 所 使 用 的 堆 (整理 前 以 及 整理 后 ) 和 元 数据 [Kermany and Petrank, 2006]. #7% 
记 位 向 量 (mark-bit vector) 中 的 位 反映 了 每 个 存活 对 象 的 起 始 和 结束 地 址 。 偏 移 向 量 (offset 
vector) 中 的 字 记 录 了 其 对 应 内 存 块 中 第 一 个 存活 对 象 的 目标 地 址 。 转 发 地 址 并 未 记录 ,但 它 可 
以 通过 偏 移 向 量 和 标记 位 向 量 计算 出 来 
回收 器 使 用 一 个 额外 的 表 来 记录 转发 地 址 。 如 果 记 录 每 个 对 象 的 转发 地 址 ， 则 会 引入 难 
以 承受 的 开销 (即使 对 象 已 经 满足 一 定 的 字 节 对 齐 要 求 )， 因 此 这 两 种 算法 都 将 堆 划 分 成 大 


ARIE — EE DIK 35 


小 相等 的 小 内 存 块 (分 别 是 256 字 节 和 512 字 节 )。 偏 移 向 量 〈offset vector) 记录 了 每 个 内 
存 块 中 第 一 个 存活 对 象 的 转发 地 址 ， 其 他 存活 对 象 的 转发 地 址 可 以 通过 偏 移 向 量 和 标记 位 向 
量 实时 计算 得 出 。 对 于 任意 给 定 对 象 ， 我 们 可 以 先 计算 出 其 所 在 内 存 块 的 索引 号 ， 然 后 再 根 
据 该 内 存 块 在 偏 移 向 量 和 标记 位 向 量 中 的 对 应 数据 计算 出 该 对 象 的 转发 地 址 。 因 此 回收 器 不 
再 需要 两 次 遍历 过 程 来 移动 对 象 和 更 新 指针 ， 转 而 可 以 通过 对 标记 位 向 量 的 一 次 遍历 来 构造 
偏 移 向 量 ， 然 后 通过 一 次 堆 遍 历 过 程 同时 完成 对 象 的 移动 和 指针 的 更 新 。 减 少 堆 的 遍历 次 数 
可 以 提升 回收 器 的 局 部 性 。 下 面 我 们 将 分 析 算 法 3.4 ( 即 Compressor 算法 ) 的 具体 实现 细节 。 


算法 3.4 Compressor 回收 器 的 整理 算法 


cormpact() : 
computeLocations(HeapStart, HeapEnd, HeapStart) 
updateReferencesRelocate(HeapStart, HeapEnd) 


loc + toRegion 
block + getBlockNum(start) 


1 

2 

3 

4 

s computeLocations(start, end, toRegion): 
6 

7 

8 for b + 0 to numBits(start，end) 一 1 
9 


if b % BITS_IN_BLOCK = 0 /* 是 否 跨越 了 块 边界 ? */ 
10 offset[block] + loc /* 第 一 个 对 象 将 移动 到 loc */ 
u block ¢ block + 1 
2 if bitmap[b] = MARKED 
B loc ¢ loc + BYTES_PER_BIT /* 根据 存活 对 象 的 大 小 增加 */ 


5 newAddress(old): 
16 block + getBlockNum(old) 
v return offset[block] + offset InBlock(old) 


3 updateReferencesRelocate(start, end): 
for each fld in Roots 
ref t= *fld 
if ref # null 
*fld + newAddress(ref) 
scan ¢ start 
while scan < end 
scan + nextMarkedObject(scan) /* 使 用 位 图 */ 
for each fld in Pointers(scan) /* 更 新 引用 */ 
ref ¢ xfld 
if ref # null 
*fld + newAddress(ref) 
dest + newAddress(scan) 
move(scan, dest) 
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8 


8 


在 标记 过 程 结 束 之 后 ，computeLocations 方法 将 通过 对 标记 位 向 量 的 遍历 来 计算 偏 移 向 
量 。 从 本 质 上 讲 ， 这 一 过 程 与 Lisp 2 ( 见 算法 3.2) 中 的 计算 方法 一 致 ,， 但 它 不 需要 访问 堆 
中 对 象 。 我 们 以 图 3.3 中 block 2 内 的 第 一 个 存活 对 象 为 例 ( 即 图 中 加 粗 的 方块 )，block 0 中 
的 第 2、3、6、7 位 被 设置 , block 1 中 的 第 3、5 位 被 设置 (本 例 中 ， 每 个 内 存 块 包含 8 ME), 
这 表示 在 该 对 象 之 前 已 经 有 7 个 内 存 颗粒 CF) 在 位 图 中 得 到 了 标记 , .因此 block 2 中 的 第 
一 个 存活 对 象 将 被 移动 到 堆 中 第 7 个 槽 中 。 回 收 器 将 这 一 地 址 记录 在 与 该 块 对 应 的 偏 移 向 量 
中 (图 中 标 有 offset [block] 的 虚线 )。 

完成 偏 移 向 量 的 计算 后 ， 回 收 器 将 更 新 根 以 及 存活 域 ， 并 使 其 指向 对 象 的 新 地 址 。 在 
Lisp 2 算法 中 ， 由 于 迁移 信息 记录 在 堆 中 ， 且 堆 中 对 象 的 移动 会 破坏 原 有 对 象 的 迁移 信 
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息 ， 因 此 回收 器 需要 将 更 新 引用 和 移动 对 象 的 过 程 分 开 。 但 在 Compressor 算法 中 ， 转 发 
地 址 可 以 快速 地 通过 标记 位 向 量 和 偏 移 疝 量 实时 计算 得 到 ， 因 而 无 须 将 其 保存 在 堆 中 ， 于 
是 回收 器 可 以 在 单 次 遍历 过 程 中 同时 完成 对 象 的 迁移 以 及 引用 的 更 新 ， 即 算法 3.4 中 的 
updateReferencesRelocate 方法 。 对 于 堆 中 任意 给 定 地 址 的 对 象 ， Compressor 回收 器 均 可 通 
过 newaddress 方法 获取 其 内 存 块 编号 (通过 移 位 和 掩 码 操 作 )， 并 且 将 该 值 作为 偏 移 向 量 的 
索引 值 来 获取 其 中 第 一 个 存活 对 象 的 转发 地 址 ， 然 后 再 借助 标记 向 量 获取 内 存 块 中 存活 对 象 
的 数量 及 大 小 ， 并 据 此 增加 偏 移 。 这 一 操作 可 以 通过 查 表 的 方式 在 常数 时 间 内 完成 ， 例 如 ， 
在 图 3.3 中 ， 对 象 ola 在 内 存 块 的 已 标记 槽 中 的 偏 移 量 为 3， 那 么 该 对 象 的 目标 地 址 将 是 第 


10 个 槽 ， 即 : offset [block]=7 加 上 offsetInBlock(old)=3。 
3.5 需要 考虑 的 问题 


3.5.1 ”整理 的 必要 性 


标记 一 清扫 回收 会 比 复制 式 回收 (将 在 下 一 章 描 述 ) 等 其 他 回收 算法 占用 更 少 的 内 存 。 
由 于 标记 一 清扫 算法 不 会 移动 对 象 ， 所 以 它 只 需要 确定 根 集合 (的 一 个 超 集 ) 而 无 须 对 其 进 
行 修改 。 对 于 内 存 较 小 ， 或 者 运行 时 系统 无 法 提供 精确 类 型 信息 的 场景 ， 这 些 特 点 都 十 分 重 
要 (ML 11.2 47). 

作为 一 种 非 移动 式 回收 算法 ， 标 记 - 清扫 算法 很 容易 受到 内 存 碎片 问题 的 影响 。 使 用 顺 
序 适应 分 配 ( 见 7.4 节 ) 等 节约 型 分 配 策略 可 能 会 减缓 碎片 化 问题 ， 但 这 要 求 程序 不 分 配 太 
多 较 大 对 象 ， 且 对 象 之 间 大 小 差异 不 大 。 但 如 果 在 对 象 大 小 变化 较 大 ， 且 需要 长 期 运行 的 程 
序 中 使 用 通用 的 非 移 动 式 回收 器 ， 碎 片 化 几乎 必然 会 是 一 个 问题 ， 因 此 许多 生产 环境 下 的 
Java 虚拟 机 都 使 用 可 以 进行 堆 整 理 的 移动 式 回收 器 。 


3.5.2 ”整理 的 吞吐 量 开 销 


在 整理 式 堆 中 进行 顺序 分 配 的 速度 很 快 。 如 果 堆 可 用 内 存 相 对 较 大 ， 则 标记 -整理 算法 
是 一 个 合适 的 移动 式 回 收 策略 ， 其 内 存 需 求 量 仅 为 复制 式 回收 器 的 一 半 。 与 复制 式 回收 算法 
相 比 ，Compressor 等 算法 更 适合 多 回收 器 线程 的 场景 (我们 将 在 14 章 进行 介绍 )。 当 然 ， 这 
些 优点 是 附带 有 一 定 代 价 的 。 与 标记 一 清扫 或 者 复制 式 回 收 器 相 比 ， 标 记 一 整理 回收 器 的 速 
度 通常 较 慢 。 许 多 整理 算法 需要 额外 的 空间 开销 ， 或 者 对 赋值 器 有 一 定 要 求 。 

与 标记 一 清扫 或 者 复制 式 回 收 算法 相 比 ， 标 记 一 整理 算法 需要 更 多 次 堆 遍 历 过 程 ， 因 而 
其 吞吐 量 较 差 ( Compressor 算法 是 一 个 特例 )。 每 次 遍历 过 程 的 开销 都 很 大 ， 因 为 这 不 仅 需 
要 多 次 访问 类 型 信息 以 及 对 象 的 指针 域 ， 而 且 正 如 第 2 章 所 提 到 的 ,“ 指 针 追 踪 ” 的 开销 往 
往 更 大 。 一 个 通用 的 解决 方案 是 ， 尽 量 长 久 地 使 用 标记 - 清扫 算法 进行 回收 ， 仅 当 碎 片 化 达 
到 一 定 程度 时 才 使 用 标记 一 整理 回收 [Printezis，2001; Soman 等 ，2004]。 


3.5.3 KAR 


在 移动 式 回收 器 中 ， 长 寿 对 象 甚 至 是 永生 对 象 聚集 在 堆 底 的 情况 并 不 罕见 。 复 制式 回收 
器 在 处 理 这 些 对 象 时 的 表现 很 差 ， 它 只 会 重复 地 将 其 从 一 个 半 区 复制 到 另 一 个 半 区 。 分 代 式 
回收 器 〈 将 在 第 9 章 介 绍 ) 可 以 将 这 些 对 象 移动 到 一 个 很 少 进行 回收 的 区 域 ， 从 而 较 好 地 实 
现 长 寿 对 象 的 处 理 。 然 而 ， 分 代 的 解决 方案 可 能 并 不 适用 于 堆 空间 较 小 的 场景 ， 因 为 如 果 要 
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对 分 代 式 回收 器 中 最 老 的 一 代 进 行 回收 ， 仍 需 处 理 长 寿 对 象 。 相 比 之 下 ,标记 一 整理 回收 则 
可 以 简单 地 选择 不 去 整理 这 一 “沉积 区 ”内 的 对 象 。Hanson[1977] 在 其 SITBOL 系统 中 首先 
发 现 ， 这 些 对 象 往往 聚集 在 该 系统 中 “临时 对 象 区 ”的 底部 。 他 的 解决 方案 是 动态 跟踪 “ 沉 
积 区 ”的 高 度 ， 只 要 不 是 绝对 必要 ， 就 简单 地 避免 对 其 进行 处 理 ， 付 出 的 代价 只 是 少量 的 内 
存 碎 片 。Sun Microsystems 的 HotSpot Java 虚拟 机 使 用 标记 一 整理 作为 其 最 老 一 代 的 默认 回 
收 器 ， 它 同样 也 会 避免 整理 堆 内 用 户 配置 的 “密集 前 缀 ” (dense prefix) 区 域 中 的 对 象 [Sun 
Microsystems，2006]。 如 果 使 用 位 图 标记 ， 那 么 可 以 通过 位 图 简单 地 计算 出 达到 指定 密度 的 
FFE RAR E 


3.5.4 局 部 性 


标记 -整理 回收 器 可 能 会 保留 对 象 在 堆 中 原 有 的 分 配 顺 序 ， 也 可 能 以 任意 顺序 进行 重 排 
列 。 尽 管 任意 顺序 回收 器 会 比 其 他 种 类 的 标记 -整理 回收 器 更 快 ， 且 无 须 额 外 的 空间 开销 ， 
但 随意 扰乱 对 象 排列 顺序 很 可 能 会 影响 赋值 器 的 局 部 性 。 在 某 些 系 统 中 ， 滑 动 式 标 记 一 整理 
回收 器 存在 一 些 其 他 的 优点 : 对 于 在 程序 某 一 点 之 后 分 配 的 空间 ， 可 以 简单 地 通过 移动 空闲 
指针 的 方式 在 常数 时 间 内 将 其 释放 。 


3.5.5 ”标记 一 整理 算法 的 局 限 性 


研究 者 们 提出 了 多 种 不 同类 型 的 标记 一 整理 算法 。Jones[1996] 的 第 5 章 对 许多 较 老 的 
整理 策略 进行 了 较为 详尽 的 描述 ， 这 些 算法 大 多 都 存在 一 些 不 良 的 或 者 不 可 接受 的 缺陷。 需 
要 考虑 的 问题 包括 记录 转发 指针 要 付出 多 大 的 空间 开销 (尽管 这 一 开销 比 复制 式 回 收 器 要 
小 )。 某 些 整理 算法 对 赋值 器 具有 特定 限制 : 双 指针 算法 等 简单 整理 算法 只 能 处 理 固定 大 小 
的 对 象 ， 将 对 象 依 照 大 小 进行 分 级 当然 是 可 以 的 ， 但 既 已 如 此 又 何须 进行 整理 ; 引线 整理 要 
求 能 够 将 指针 和 和 暂 存在 指针 域 中 的 非 指针 临时 值 进行 区 分 ， 由 于 引线 算法 会 (临时 性 地 ) 破 
坏 针 域 信息 ， 因 而 不 适用 于 并 发 回收 器 ; Morris[1978, 1979, 1982] 的 引线 整理 算法 对 引用 
可 能 的 指向 方向 存在 限制 ; 最 后 ， 除 了 双 指 针 算法 ， 大 多 数 整理 算法 都 不 支持 内 部 指针 。 
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复制 式 回收 


标记 一 清扫 回收 的 开销 较 低 ,但 其 可 能 受到 内 存 碎片 问题 的 困扰 。 在 一 个 设计 良好 的 系 
统 中 ,垃圾 回收 通常 只 会 占用 整体 执行 时 间 的 一 小 部 分 ， 赋 值 器 的 执行 开销 将 决定 整个 程序 
的 性 能 ， 因 此 应 当 设 法 降低 赋值 器 的 开销 ， 特 别 是 应 当 尽量 提升 它 的 分 配 速度 。 标 记 一 整理 
回收 费 可 以 根除 雄 片 问题 ， 而 且 支 持 极 为 快速 的 “ 阶 跃 指针 ”(bump a pointer) 分 配 ( 见 第 7 
章 )， 但 它 需 要 多 次 堆 遍 历 过 程 ， 进 而 显著 增加 了 回收 时 间 。 本 章 将 介绍 第 三 种 追踪 式 回收 
算法 : 半 区 复制 (semispace copying) [Fenichel and Yochelson, 1969; Cheney，1970]。 回 收 
器 在 复制 过 程 中 会 进行 堆 整 理 ， 从 而 可 以 提升 赋值 器 的 分 配 速 度 ， 且 回收 过 程 只 需 对 存活 对 
象 遍 历 一 次 。 其 最 大 的 缺点 在 于 ， 堆 的 可 用 空间 降低 了 一 半 。 
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基本 的 复制 式 回 收费 会 将 堆 划 分 为 两 个 大 小 相等 的 半 区 ( semispace)， 分 别 是 来 源 空间 
(fromspace) 和 目标 空间 (tospace)。 为 了 简单 起 见 ， 算 法 4.1 假定 堆 是 一 块 连续 的 内 存 空间 ， 
但 这 并 非 强制 性 要 求 。 当 堆 空 间 足 够 时 ， 在 目标 空间 中 分 配 新 对 象 的 方法 是 根据 对 象 的 大 小 
简单 地 增加 空闲 指针 8 ， 如 果 可 用 空间 不 足 ， 则 进行 垃圾 回收 。 回 收 器 在 将 存活 对 象 从 来 源 
空间 复制 到 目标 空间 之 前 必须 先 将 两 个 半 区 的 角色 互 换 ( 见 算法 4.2 中 的 第 2 行 )。 在 回收 
过 程 中 ， 回 收 器 简单 地 将 存活 对 象 从 来 源 空间 中 迁 出 ; 在 回收 完成 后 ， 所 有 存活 对 象 将 紧密 
排 布 在 目标 空间 的 一 端 。 在 下 一 轮回 收 之 前 ， 回 收 器 将 简单 地 丢弃 来 源 空 间 (以 及 其 中 的 对 
象 )， 但 在 实际 应 用 中 基于 安全 考虑 ， 许 多 回收 器 在 初始 化 下 一 轮回 收 过 程 之 前 都 会 先 将 该 
区 域 清 零 ( 见 第 11 章 中 讨论 运行 时 系统 接口 的 内 容 )。 


算法 4.1 半 区 复制 回收 : 初始 化 以 及 分 配 (为 了 简单 起 见 ， 假 定 堆 是 单个 连续 区 域 ) 


1 createSemispaces(): 

2 tospace ¢ HeapStart 

3 extent + (HeapEnd 一 HeapStart) / 2 /* 半 区 大 小 */ 
4 top ¢ fromspace + HeapStart + extent 

5 free + tospace 
6 
7 
8 
9 


atomic allocate(size): 
result ¢ free 
newfree + result + size 
10 if newfree > top 
1 return null /* 信号 :“ 内 存 耗 尺 ”*/ 
12 free + newfree 
13 return result 


在 回收 过 程 的 初始 化 完成 之 后 ， 半 区 复制 回收 器 首先 将 根 对 象 复制 到 目标 空间 ， 并 以 此 
来 填充 工作 列表 (算法 4.2 中 的 第 4 行 )。 已 复制 但 尚未 得 到 扫描 的 对 象 为 灰色 ， 其 每 个 指针 


O TEM: 我 们 所 说 的 分 配 和 复制 过 程 都 忽略 了 字 节 对 齐 和 字 节 填充 要 求 ， 也 忽略 了 对 象 复制 前 后 可 能 存在 不 同 
格式 的 情况 ， 例 如 ， 每 个 Java 对 象 都 有 一 个 明确 的 哈 希 值 。 
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域 要 么 为 空 ， 要 么 引用 了 某 个 位 于 来 源 空间 的 对 象 。 回 收 器 扫描 灰色 对 象 的 每 个 指针 域 ， 并 
将 其 更 新 到 目标 对 象 在 目标 空间 中 的 新 副本 。 当 遍历 到 来 源 空 间 中 的 某 一 对 象 时 ，copy 方 
法 首先 检查 该 对 象 是 否 已 完成 迁移 ( 即 是 否 已 存在 转发 地 址 )， 如 果 没 有 ， 则 将 该 对 象 复制 
到 目标 空间 中 指针 tree 所 指向 的 地 址 ， 同 时 根据 对 象 的 大 小 增加 指针 free (与 分 配 过 程 类 = [43] 
似 )。 对 于 存活 对 象 在 目标 空间 中 的 对 应 副本 ， 回 收 器 必须 能 够 保持 其 原 有 的 拓扑 关系 ， 因 
此 当 回 收 器 将 对 象 复制 到 目标 空间 时 ， 会 将 其 转发 地 址 记录 在 来 源 空间 内 的 原 有 对 象 中 〈 算 
法 4.2 中 的 第 34 行 )。forward 方 法 在 对 目标 空间 中 的 域 进 行 扫描 时 会 使 用 目标 对 象 的 转发 
地 址 来 更 新 该 域 ， 如 果 目 标 对 象 的 转发 地 址 尚 不 存在 ， 则 对 该 对 象 进行 复制 (算法 4.2 中 的 
第 22 行 )。 当 回收 器 完成 对 目标 空间 中 所 有 对 象 的 扫描 时 ， 回 收 过 程 结束 。 

与 标记 一 整理 回收 不 同 ， 半 区 复制 回收 无 须 在 对 象 头 部 中 引入 额外 空间 。 由 于 来 源 空间 
中 的 对 象 在 复制 完成 后 便 不 再 使 用 ， 所 以 其 每 个 槽 都 可 以 用 于 记录 转发 地 址 (至 少 在 万 物 静 
止 式 回收 中 如 此 )。 因 此 复制 式 回 收 甚 至 适用 于 不 包含 头 部 的 对 象 。 


算法 4.2” 半 区 复制 式 回收 


1 atomic collect(): 

2 flip() 

3 initialise(worklist) /* 将 工作 列表 初始 化 为 空 */ 
4 for each fld in Roots /* 复制 根 */ 
5 process(fld) 

6 while not isEmpty(worklist) /* 复制 传递 闭 包 */ 
7 ref + remove(worklist) 

8 scan(ref) 


w flip(): /* 翻转 半 区 */ 
n fromspace, tospace ¢- tospace, fromspace 

12 top + tospace + extent 

13 free + tospace 


5 scan(ref): 
16 for each fld in Pointers(ref) 
17 process(fld) 


» process(fld): /* 使 用 目标 空间 中 新 副本 的 地 址 来 更 新 域 */ 
20 fromRef t xfld 

a if fromRef # null 

*fld + forward(fromRef) /* 使 用 目标 空间 中 新 副本 的 地 址 进行 更 新 */ 


forward(fromRef): 
toRef + forwardingAddress(fromRef) 
if toRef = null /* 尚未 得 到 复制 (尚未 标记 ) */ 
toRef ¢- copy(fromRef) 
return toRef 
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copy(fromRef): /* 复制 对 象 ， 返 回转 发 地 址 */ 
toRef «+ free 
free + free + size(fromRef) 
move(fromRef, toRef) 
forwardingAddress(fromRef) 全 toRef /* 标记 */ 
add(worklist, toRef) 
return toRef 


2 


&® & £8 8 


4.1.1 工作 列表 的 实现 
与 其 他 追踪 式 回收 器 类 似 ， 半 区 复制 需要 一 个 工作 列表 来 记录 待 处 理 对 象 。 工 作 列 表 有 
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多 种 实现 方式 ， 每 种 方式 的 对 象 图 遍历 顺序 以 及 空间 需求 各 不 相同 。Fenichel 和 Yochelson 
[1969] 的 策略 是 将 工作 列表 作为 一 个 简单 的 辅助 栈 ， 十 分 类 似 于 第 2 章 所 描述 的 标记 - 清扫 
回收 器 所 使 用 的 标记 栈 ， 当 栈 为 空 时 ， 复 制 过 程 结 束 。 

Cheney[1970] 提出 了 一 种 十 分 优雅 的 算法 : Cheney 扫描 (Cheney scanning)， 该 算法 
利用 目标 空间 中 的 灰色 对 象 实现 先进 先 出 队列 。 该 算法 仅 需 要 一 个 指针 scan 来 指向 下 一 个 
待 扫描 对 象 ， 除 此 之 外 不 再 需要 任何 额外 空间 。 在 半 区 翻转 完成 后 ， 指 针 tree 和 指针 scan 
均 指向 目标 空间 的 起 始 地 址 ( 见 算法 4.3 中 的 initialise 方法 )。 完 成 根 对 象 的 复制 后 ， 指 
针 scan 和 指针 free 之 间 的 灰色 对 象 (已 完成 复制 但 未 完成 扫描 ) 便 构成 了 工作 列表 。 随 着 
目标 空间 中 对 象 域 的 扫描 以 及 更 新 ， 指 针 scan 不 断 向 前 迭代 ( 见 算法 4.3 中 的 第 9 行 )。 当 
工作 列表 为 空 ， 也 就 是 指针 scan 与 指针 tree 重合 时 ， 回 收 完成 。 该 算法 的 实现 非常 简单 ， 
要 确定 回收 过 程 是 否 完成 ， 仅 需要 通过 isEmpty 方法 判断 指针 scan 和 指针 free 是 否 重合 ， 
remove 方法 只 是 简单 地 返回 指针 scan, ada 方法 则 无 须 执行 任何 操作 。 


算法 4.3 用 Cheney 工作 列表 进行 复制 


initialise(worklist): 
scan ¢ free 


1 
2 
3 
4 isEmpty(worklist): 

5 return scan = free 
6 

7 

8 

9 


remove(worklist): 
ref ¢ scan 
scan + scan + size(scan) 
10 return ref 


n add(worklist, ref): 
8 [ERE Si] 


4.1.2 示例 


图 4.1 展示 了 使 用 Cheney 扫描 复制 对 象 工 的 一 个 示例 ， 该 对 象 是 链表 结构 的 头 节 点 ， 
它 包 含 指向 表 头 和 表 尾 的 指针 。 图 4.1a 展示 了 在 回收 开始 之 前 来 源 空间 的 状态 。 在 回收 开 
始 时 ， 回 收 器 翻转 半 区 ， 将 根 直接 可 达 的 对 象 工 复 制 到 目标 空间 (增加 指针 free)， 同 时 将 
对 象 工 的 新 地 址 (AIL) SAL (例如 覆盖 其 第 一 个 域 )， 然 后 将 指针 scan 指向 目标 空间 中 
的 第 一 个 对 象 ( 见 图 4.1b)， 此 时 回收 器 已 经 做 好 了 复制 根 的 传递 闭 包 (transitive closure) 的 
准备 。scan 指针 指向 该 过 程 的 第 一 个 对 象 。L' 持 有 来 源 空间 中 对 象 A 和 对 象 E 的 引用 ， 回 
收 器 将 它们 复制 到 目标 空间 中 指针 free 所 指向 的 地 址 (并 增加 指针 free)， 同 时 也 将 LL' 中 
的 引用 更 新 以 指向 对 象 A' 和 E' ( 见 图 4.1c)， 然 后 将 指针 scan 移动 到 下 一 个 灰色 对 象 。 需 
要 注意 的 是 ， 在 回收 器 完成 对 象 工 ' 的 处 理 后 , 工 ' 在 概念 上 将 成 为 黑色 ， 而 将 要 扫描 的 对 象 
A' 和 E' 则 变 成 灰色 。 在 目标 空间 中 的 对 象 身 上 重复 这 一 过 程 ， 直 到 指针 scan 和 指针 free 
汇合 为 止 ( 见 图 4.1f) 。 注 意 ,在 图 4.1e 中 ，D' 引 用 了 已 完成 复制 的 对 象 E， 回 收 器 使 用 对 
象 E 中 记录 的 转发 地 址 来 更 新 D' 中 的 引用 ， 从 而 保持 了 对 象 图 的 拓扑 形状 。 与 其 他 追踪 式 
算法 一 样 ， 复 制式 垃圾 回收 可 以 处 理 包 括 环 状 数据 结构 在 内 的 任何 形状 的 图 ， 也 可 以 正确 地 
保持 共享 关系 。 
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d) 扫描 对 象 A 以 及 其 他 对 象 的 副本 
图 4.1 复制 式 垃圾 回收 : 示例 
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e) 扫描 对 象 C 的 副本 









eee 
f) 扫描 对 象 D 的 副本 。 此 时 scan=Efree， 说 明 回收 结束 


图 4.1 ( 续 ) 


4.2 遍历 顺序 与 局 部 性 


赋值 器 和 回收 器 的 局 部 性 对 程序 性 能 有 重要 影响 。 正 如 前 面 章节 提 到 的 ， 如 果 回 收 需 忽 
略 对 象 之 间 的 指针 关系 或 者 对 象 原本 的 分 配 顺 序 而 任意 将 其 移动 到 新 位 置 ， 则 很 可 能 降低 赋 
值 器 的 局 部 性 ， 进 而 降低 整个 程序 的 性 能 [Abuaiadh 等 ，2004]。 我 们 需要 在 赋值 器 的 局 部 
性 、 回 收费 的 局 部 性 、 回 收 频率 之 间 做 出 一 定 的 权衡 。 以 标记 一 清扫 和 复制 式 回收 的 对 比 为 
Bil: 在 同等 条 件 下 ,标记 一 清扫 回收 的 可 用 堆 大 小 是 复制 式 回 收 的 两 倍 ， 因 此 其 回收 次 数 会 
比 后 者 少 一 半 ， oe 认为 标记 一 清扫 回收 的 整体 性 能 更 优 。Blackburn % [2004] 
发 现 ， 对 于 空间 较 小 的 堆 ， 这 一 结论 确实 是 正确 的 (他 们 使 用 的 是 分 区 适应 分 配 以 及 非 移动 
smi, tba. Mei ey eeamee 
中 率 ， 其 所 带 来 的 性 能 收益 明显 高 于 标记 一 清扫 回收 的 空间 收益 。 对 于 更 新 频率 较 高 的 新 分 
配对 象 而 言 ， 这 一 效果 尤为 明显 [Blackburn and McKinley, 2003]. 

Blackburn 等 [2004a] 对 复制 对 象 的 深度 优先 方法 进行 研究 发 现 ，Cheney 的 复制 式 回 收 
器 遍历 顺序 在 本 质 上 属于 广度 优先 顺序 ， 尽 管 其 在 目标 空间 中 对 灰色 对 象 的 扫描 是 线性 的 
( 即 其 访问 模式 具有 可 预测 性 )， 但 是 它 会 将 父 节 点 与 子 节点 分 离 ， 从 而 破坏 了 赋值 器 的 局 部 
性 。 对 于 图 4.2a 所 示 的 对 象 布 局 ， 图 4.2b 中 的 表 对 比 了 对 同一 对 象 布 局 使 用 不 同 顺序 进行 
遍历 的 结果 ， 每 一 行 展 示 了 不 同 遍历 顺序 下 对 象 在 目标 空间 中 的 最 终 排列 形式 。 对 第 2 行进 
行 观察 可 知 ， 在 广度 优先 顺序 下 ， 只 有 对 象 2 和 3 距 其 父 节 点 较 近 。 本 节 将 深入 探讨 遍历 顺 
序 及 其 对 赋值 需 局 部 性 的 影响 。 
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四 pa 7 
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a) 待 复 制 的 树 
广度 优先 | 1 | 21344] sto] 7] 8] 9 fio} 12] 13] 14] is] 
层次 分 解 | 1 [213 [4 [8] 9 fs fof uy 6 fiji]? [141s 
在 线 对 象 记录 
b) 复制 完成 后 堆 中 对 象 的 布局 
图 4.2 ”使 用 不 同 的 遍历 顺序 来 复制 一 棵 树 。 假 设 每 个 内 存 页 (图 中 用 粗 线 框 标 出 ) 可 以 容纳 三 个 对 象 ， 
每 一 行 展 示 了 不 同 遍 历 顺 序 下 对 象 在 目标 空间 中 的 布局 方式 。 对 于 在 线 对 象 记录 ( online object 
recordering) 策略 ， 质 数 域 ( 粗 斜体 ) 被 认为 是 热点 

White[1980] 在 很 早 以 前 就 建议 利用 垃圾 回收 器 来 提升 赋值 器 的 性 能 。 复 制式 回收 右 和 整 
理 式 回 收 器 都 会 移动 对 象 ， 因 此 可 以 潜在 地 影响 赋值 器 的 局 部 性 。 对 于 标记 一 整理 算法 而 言 ， 
滑动 顺序 通常 是 最 优 的 ， 因 为 它 保持 了 赋值 器 分 配对 象 时 建立 的 顺序 。 滑 动 顺 序 是 一 种 安全 
的 、 保 守 的 策略 ,但 是 否 可 以 做 得 更 好 呢 ? 标 记 一 整理 算法 进行 堆 紧 缩 的 方式 ， 无 非 是 将 对 
象 移动 到 空洞 中 (任意 顺序 整理 )， 或 者 滑动 存活 对 象 ( 仅 覆 盖 垃 圾 或 者 覆盖 已 经 移动 过 的 对 
象 )， 因 此 它 无 法 通过 对 象 重 排列 来 进一步 提升 赋值 器 的 局 部 性 。 对 于 将 存活 对 象 迁 移 到 新 空 
间 且 不 破坏 原 有 数据 的 复制 式 回 收 ， 其 可 以 通过 对 象 的 重 排 列 来 提升 赋值 器 的 局 部 性 。 

但 是 ， 我 们 无 法 找到 一 个 最 优 的 对 象 布局 来 最 大 限度 地 提升 程序 的 高 速 缓存 命中 率 ， 其 
原因 有 二 : 首先 ， 回 收 器 无 法 预知 赋值 器 未 来 将 会 以 何 种 方式 访问 存活 对 象 ; 其 次 ，Petrank 
和 Rawitz[2002] 指出 ， 对 象 排列 问题 是 一 个 NP 完全 问题 ， 也 就 是 说 ， 即 使 可 以 完全 预知 赋 
值 器 未 来 访问 对 象 的 次 序 ， 也 无 法 找到 一 个 高 效 算法 来 计算 出 最 优 的 排列 方式 。 唯 一 的 办 法 
是 使 用 启发 式 方法 。 通 过 程序 过 往 的 行为 来 预测 其 未 来 的 行为 是 一 种 可 行 方 案 。 一 些 研究 
者 假定 程序 在 不 同 输入 下 行为 都 是 相似 的 ， 进 而 采取 在 线 分 析 (profiling) 策略 [Calder 等 ， 
1998]， 也 有 研究 者 假定 程序 在 连续 两 个 时 间 区 间 内 的 行为 不 会 发 生变 化 ， 进 而 使 用 在 线 采 
FE (online sampling) 策略 [Chilimbi 等 ，1999]。 另 一 种 启发 式 方法 是 保持 对 象 在 分 配 时 的 
顺序 ， 就 像 滑 动 整理 那样 。 第 三 种 方法 是 尝试 将 子 节点 靠近 它 的 某 个 父 节 点 排列 ， 因 为 访问 
子 节点 的 唯一 途径 是 经 过 该 节点 的 一 个 父 节点 。Cheney 算法 使 用 广度 优先 遍历 ， 从 而 导致 
具有 相关 性 的 对 象 分 离 ， 即 趋向 于 将 “远亲 ”而 非 父子 节点 排列 在 一 起 ， 而 深度 优先 遍历 则 
趋向 于 将 子 节点 与 其 父 节点 排列 得 更 近 (图 4.2b 中 的 第 一 行 )。 

对 于 不 同 复制 顺序 对 赋值 器 局 部 性 的 影响 ， 早 期 的 研究 主要 集中 在 减少 缺 页 异常 ( page 
fault) 方面 ， 其 目的 是 将 相关 对 象 排列 在 同一 内 存 页 中 。Stamos 在 对 Smalltalk 系统 进行 模 
拟 时 发 现 ， 在 换 页 行为 方面 ， 深 度 优先 顺序 虽然 比 广度 优先 顺序 有 一 定 的 改进 ， 但 却 比 滑动 
顺序 要 差 [Stamos，1982 ; Blau, 1983 ; Stamos，1984]。Wilson 等 [1991] 则 认为 ， 这 些 模 
拟 都 忽略 了 Lisp 和 Smalltalk 程序 真正 的 拓扑 结构 ， 即 程序 倾向 于 创建 宽 而 浅 的 树 ， 树 的 根 
节点 通常 位 于 哈 希 表 中 ， 且 为 避免 冲突 ， 对 象 的 键 通常 会 被 打 散 。 
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Fenchel 和 Yochelson 的 算法 通过 引入 一 个 辅助 的 后 进 先 出 标记 栈 来 达到 深度 优先 遍历 
顺序 ， 但 即使 不 使 用 辅助 栈 且 不 付出 空间 代价 也 可 以 实现 准 深度 优先 遍历 。Moon[1984] 对 
Chenny 算法 进行 了 修改 并 使 其 拥有 近似 深度 优先 的 遍历 顺序 ， 新 算法 在 指针 scan 的 基础 
上 引入 了 第 二 个 指针 partialscan ( 见 图 4.3 )。 当 完成 某 一 对 象 的 复制 后 ， 该 算法 先 在 目 
标 空间 内 最 后 一 个 尚未 完成 扫描 的 页 中 进行 次 级 扫 
描 (secondary scan)， 然 后 才 会 在 第 一 个 未 完成 扫描 
的 页 中 继续 进行 主 扫描 ( 见 算法 4.4 )。 此 时 的 工作 
列表 实际 上 是 由 一 对 Cheney 队列 组 成 的 。 与 纯粹 
的 广度 优先 搜索 相 比 ， 这 一 层次 分 解 (hierarchical 图 4.3 Moon 的 准 深度 优先 复制 。 每 一 块 
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partialScan- lfree 





decomposition) 方案 的 优势 在 于 ， 它 能 更 有 效 地 将 代表 一 个 内 存 页 。 已 经 扫描 过 的 域 
父 节 点 与 子 节点 排列 在 同一 页 中 。 图 4.2b 中 的 第 三 为 黑色 ， 完 成 复制 但 尚未 得 到 扫描 
行 展示 了 在 一 页 可 以 容纳 三 个 对 象 时 ， 对 整 棵 树 使 的 对 象 为 灰色 ， 白 色 为 空闲 空 间 


用 层次 分 解 算法 进行 复制 之 后 的 状态 。 
算法 4.4” 准 深度 优先 复制 [Moon，1984] (假设 对 象 不 会 跨 页 ) 


initialise(worklist): 
scan + free 


1 

2 

3 partialScan ¢ free 

4 

s isEmpty(worklist): /* 4 Cheney 算法 相同 */ 
6 return scan = free 

7 

s remove(worklist): 

9 if (partialScan < free) 

10 ref + partialScan /* 优先 进行 次 级 扫描 */ 
u partialScan + partialScan + size(partialScan) 

12 else 

3 ref + scan /* 主 扫描 */ 
u scan ¢ scan + size(scan) 

15 return ref 

16 

v add(worklist, ref): /* 在 最 近 分 配 的 页 上 进行 次 级 扫描 */ 
18 partialScan + max(partialScan, startOfPage(ref)) 


Moon 的 算法 最 大 缺陷 在 于 ， 它 只 记录 了 一 对 扫描 指针 ， 无 法 区 分 指针 scan 和 指针 
free 之 间 的 哪些 对 象 已 完成 扫描 ， 因 而 有 可 能 将 某 些 对 象 扫描 两 次 。Wilson 等 [1991] 声称 
Moon 的 算法 重复 扫描 的 比例 大 概 有 30%， 并 对 此 进行 改进 。 他 们 为 每 一 页 记录 指针 scan 
和 指针 free， 从 而 将 工作 列表 变 成 所 有 需要 进行 部 分 扫描 的 块 的 链表 ， 因 此 主 扫描 可 以 跳 
过 已 经 完成 次 级 扫描 的 对 象 。 

2.6 节 曾 讨论 过 如 何 提升 标记 -清扫 回收 器 标记 阶段 的 性 能 ， 其 中 提 到 ，Cher 等 [2004] 
指出 使 用 栈 来 引导 的 遍历 遵从 深度 优先 顺序 ， 但 其 对 高 速 缓存 行 的 预 取 却 遵从 广度 优先 顺序 。 
因此 一 个 自然 而 然 的 问题 便 是 ， 是 否 可 以 将 基于 栈 的 深度 优先 复制 与 Cher 等 [2004] 的 先进 先 
出 预 取 队 列 相 结合 ? 很 遗憾 ， 答 案 是 否定 的 。 尽 管 先 进 先 出 顺序 可 以 减少 高 速 缓存 不 命中 对 
复制 过 程 的 影响 ， 但 它 会 将 父子 节点 分 开 ， 因 为 只 有 当 对 象 从 预 取 队 列 中 移 除 ， 而 不 是 从 栈 


中 移 除 时 ， 回 收 器 才 会 访问 对 象 所 包含 的 引用 ?。 我 们 来 考察 图 4.4 中 将 字符 串 对 象 S 从 栈 中 


© 来 自 与 Tony Printezis 的 私人 交流 。 
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弹出 的 过 程 : 在 理想 情况 下 ， 对 象 S 应 当 与 其 相关 的 字符 数组 C 一 起 排列 在 目标 空间 中 ， 这 
正 是 深度 优先 算法 所 能 达到 的 效果 。 当 使 用 先进 
先 出 队列 时 ，S 从 栈 中 弹出 后 将 被 立即 添加 到 预 | 
取 队 列 中 ， 假 设 此 时 队列 已 满 ， 则 回收 器 会 将 最 | 
老 的 对 象 X 从 队列 中 移 除 并 复制 ， 同 时 将 其 引用 
的 对 象 Y 和 ZzZ 压 入 栈 中 。 但 是 ， 回 收 咒 从 队列 | I 
中 移 除 和 复制 Y 和 将 发 生 在 S 之 后 、C 之 前 。 ;| bee 

上 述 各 种 复制 算法 的 重 排列 方式 都 是 静态 FR lpretecoh() 目标 空间 
的 ， 即 它们 都 没有 考虑 具体 程序 的 实际 行为 ， 但 
可 以 肯定 的 是 ， 对 象 重 排列 方式 所 能 带 来 的 收 
益 最 终 取决 于 赋值 器 的 行为 。Lam 等 [1992] 发 
现 ， 两 种 算法 都 对 程序 数据 结构 的 组 合 方式 以 及 peak pe wlkorn sakes 
形状 十 分 敏感 ， 对 于 非 树 形 结构 ， 其 性 能 反而 会 亲 ”(C、Y、Z) 而 非 父子 节点 排列 在 一 起 
有 所 降低 。Siegwart 和 Hirzel[2006] 也 发 现 ， 并 行 层次 分 解 回收 器 可 以 提升 某 些 基准 测试 程 
序 的 性 能 ， 但 对 于 其 他 的 则 几乎 没有 效果 。 为 解决 这 一 问题 ，Huang 等 [2004] 对 程序 进行 动 
态 分 析 ， 并 尝试 将 对 象 的 “ 热 ” 域 与 其 父 节点 排列 在 一 起 。 算 法 4.5 展示 了 他 们 的 在 线 对 象 
记录 (online object recording) 方法 ， 图 4.2b 的 最 后 一 行 展示 了 其 效果 。 在 算法 的 主 扫描 循环 
中 (算法 4.5 中 的 第 6 行 )， 回 收 器 在 对 所 有 的 “ 冷 ” 域 进行 处 理 之 前 会 先 处 理工 作 列 表 中 的 
所 有 “ 热 ” 域 。 对 于 一 个 配备 了 方法 采样 机 制 (method sampling mechanism) 的 自 适应 动态 
编译 器 而 言 ， 确 定 这 些 域 的 开销 通常 很 小 (Huang 等 声称 只 占用 不 到 2% 的 整体 执行 时 间 )。 
他 们 的 算法 也 可 以 通过 对 “ 热 ” 域 的 淘汰 与 重新 扫描 来 适应 程序 在 不 同 阶 段 的 行为 变化 ， 他 
们 发 现在 引入 该 算法 后 ， 系 统 的 性 能 可 以 达到 或 者 超过 了 诸如 广度 优先 等 静态 重 排列 顺序 。 


算法 4.5 ”在 线 对 象 记录 






add () > x 


TE Ug 


来 源 空 间 


X SYZC 
图 4.4 先进 先 出 预 取 缓冲 器 〈 见 第 2 章 ) 无 法 


1 atomic collect(): 
2 flip() 

3 initialise(hotList, coldList) 

‘ for each fld in Roots 

5 adviceProcess(fld) 

6 repeat 

7 while not isEmpty(hotList) 

8 adviceScan(remove(hotList)) 

9 while not isEmpty(coldList) 

10 adviceProcess(remove(coldList)) 
u until isEmpty(hotList) 


3 initialise(hotList, coldList): 
“ hotList + empty 
15 coldList ¢ empty 


wv adviceProcess(fld): 

8 fromRef + *fld 

19 if fromRef # null 

2» *fld + forward(fromRef) 


2 adviceScan(obj): 
z for each fld in Pointers(obj) 
2 if isHot(fld) 


52 
2 
53 
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5 adviceProcess(fld) 
% else 
7 add(coldList, fld) 


Chen 等 [2006] 以 及 Chilimbi 和 Larus[1998] 各 自 通过 在 分 代 回 收 器 中 主动 调用 回收 器 
来 提升 局 部 性 ， 但 其 开销 较 大 ， 因 而 不 会 经 常 启用 。 对 于 以 提升 局 部 性 为 目标 的 回收 ， 分 配 
率 的 变化 是 主要 的 触发 因素 ， 转 译 后 备 缓冲 区 (translation lookaside buffer, TLB) 中 的 数据 
或 者 L2 高 速 缓存 命中 率 的 变化 是 次 要 触发 因素 。 他 们 将 得 到 访问 的 对 象 记录 在 一 个 固定 大 
小 的 环 状 缓冲 区 中 (他 们 声称 ， 节 点 级 别 分 析 比 域 级 别 分 析 的 开销 要 小 5%， 因 为 面向 对 象 
程序 中 大 多 数 对 象 都 小 于 32 字 节 )。 在 突 发 式 的 采样 过 程 中 ， 他 们 使 用 一 个 开销 较 大 (但 经 
过 高 度 优 化 ) 的 读 屏 障 9 来 拦截 赋值 器 加 载 引 用 的 操作 ， 并 据 此 分 辨 热 对 象 。 热 对 象 复制 的 
过 程 分 为 两 个 阶段 : 首先 将 赋值 器 正 在 访问 的 对 象 复制 到 一 个 临时 缓冲 区 中 ， 然 后 使 用 层次 
分 解 的 方法 将 热 对 象 添 加 到 该 缓冲 区 以 提升 换 页 性 能 [Wilson 等 ，1991]。 回 收 顷 将 已 复制 对 
象 的 原 有 位 置 标记 为 空闲 ， 然 后 将 临时 缓冲 区 中 经 过 重 排列 的 对 象 移动 到 堆 的 一 端 。 该 方案 
尝试 在 高 速 缓存 性 能 以 及 换 页 行为 方面 同时 进行 优化 。 实 验 结果 表明 ， 将 两 种 优化 方法 结合 
的 收益 通常 大 于 两 者 各 自 收 益 的 总 和 ， 且 对 于 多 数 大 型 C# 应 用 程序 而 言 ， 平 均 执 行 时 间 都 
会 得 到 改善 。 尽 管 该 算法 会 保留 部 分 垃圾 对 象 ， 但 其 总 量 通常 很 小 。 

还 有 学 者 提出 ， 可 以 依照 对 象 类 型 来 进行 自 定 义 的 静态 重 排序 [Wilson 等 ，1991 ; Lam 
等 ，1992]， 特 别 是 对 于 系统 数据 结构 来 说 。 通 过 允许 类 的 开发 者 来 决定 域 的 复制 顺序 ， 
Novark 等 [2006] 显著 提升 了 某 些 特定 数据 结构 的 高 速 缓存 命中 率 。Shuf 等 [2002] 使 用 离线 
分 析 (off-line profiling) 的 方法 来 确定 富 类 型 (prolific type)， 他 们 同时 对 分 配器 进行 修改 ， 
即 当 创建 父 对 象 时 为 其 子 对 象 预 留 相 邻 空间 ， 这 样 既 提升 了 局 部 性 ， 同 时 又 可 以 将 具有 相同 
生命 周期 的 对 象 聚集 在 一 起 。 对 于 本 节 所 提 到 的 将 先进 先 出 预 取 队 列 与 深度 优先 复制 相 结 合 
所 带 来 的 问题 ， 该 方案 可 以 在 一 定 程度 上 予以 缓解 。 


43 ”需要 考虑 的 问题 


相对 于 非 移 动 式 回收 (例如 标记 一 清扫 回收 )， 复 制式 回收 具有 两 个 显而易见 的 优点 : 
分 配 速度 快 ， 同 时 可 以 根除 内 存 碎片 (假设 不 考虑 字 节 对 齐 要 求 )。 简 单 的 复制 式 回收 器 也 
比 标记 一 清 扫 或 者 标记 一 整理 回收 器 更 容易 实现 ， 但 在 相同 的 回收 频率 下 ,复制 式 回 收 所 需 
要 的 虚拟 内 存 是 其 他 回收 器 的 两 倍 。 


4.3.1 分 配 


在 经 过 整理 的 堆 中 进行 内 存 分 配 的 速度 很 快 ， 其 分 配 过 程 十 分 简单 ， 通 常 只 需要 简单 判 
断 堆 或 者 内 存 块 的 上 限 ， 然 后 返回 空闲 指针 。 如 果 使 用 块 结构 堆 而 非 连续 的 堆 ， 则 判断 偶尔 
会 失败 ， 此 时 则 需 使 用 一 个 新 内 存 块 。 慢 速 路 径 s 的 出 现 频率 取决 于 所 分 配 的 对 象 平均 大 小 
与 内 存 块 大 小 的 比例 。 在 多 线程 情况 下 ， 每 个 赋值 器 可 以 拥有 一 个 独立 的 、 无 须 与 其 他 线程 
同步 的 本 地 分 配 缓冲 区 ， 因 而 其 分 配 速度 也 会 很 快 。 该 方案 实现 简单 ， 且 只 需要 很 少 的 元 数 
据 ， 相 比 之 下 ， 如 果 非 移动 式 回收 器 要 使 用 本 地 分 配 策略 ， 每 个 线程 可 能 需要 一 个 独立 的 空 


O 我 们 将 在 第 11 章 讨论 屏障 技术 。 
© 即 在 判断 失败 情况 下 使 用 新 内 存 块 的 代码 路 径 。 一 一 译 者 注 
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间 大 小 分 级 数据 结构 来 实现 分 区 适应 分 配 。 

阶 跃 指针 分 配 的 代码 序列 十 分 短小 ， 更 重要 的 是 ， 这 种 线性 分 配方 式 具 有 较 好 的 高 速 组 
存 友好 性 。 在 半 区 复制 策略 下 使 用 顺序 分 配 算法 来 分 配 短 寿命 对 象 ， 意 味 着 下 一 个 分 配 的 位 
置 很 可 能 是 最 近 最 少 使 用 的 ， 但 现代 处 理 器 的 预 取 能 力 可 以 解决 在 这 种 问题 下 可 能 出 现 的 时 
间 延 迟 。 如 果 这 一 行为 与 操作 系统 的 最 近 最 少 使 用 (least recently used, LRU) 页 淘汰 策略 
产生 冲突 进而 影响 到 换 页 性 能 ， 那 么 就 需要 考虑 重新 配置 系统 。 对 于 复制 式 回收 而 言 ， 欲 使 
程序 运行 流畅 ， 要 么 需要 更 多 的 物理 内 存 ， 要 么 需要 借助 于 其 他 回收 策略 ， 例 如 第 9 章 将 介 
绍 的 分 代 垃 圾 回收 器 。 

Blackburn 等 [2004a] 发 现 ， 尽 管 在 微型 基准 测试 程序 中 顺序 分 配 的 性 能 比 空闲 链表 分 配 
要 高 11%， 但 是 在 真正 的 应 用 程序 中 ， 分 配 过 程 本 身 却 只 占用 不 到 10% 的 整体 执行 时 间 ， 因 
此 阶 跃 指针 分 配 与 空闲 链表 分 配 之 间 的 开销 差别 就 不 那么 显著 了 。 分 配 过 程 只 是 赋值 器 所 
要 完成 的 工作 之 一 ， 而 创建 一 个 新 对 象 的 开销 几乎 是 由 其 初始 化 方法 决定 的 。 在 许多 应 用 程 
序 中 ， 对 象 的 生命 周期 都 十 分 类 似 : 赋值 器 几乎 在 同一 时 间 创 建 一 批语 义 相 关 的 对 象 ， 使 用 
它们 ， 最 后 再 一 次 性 将 它们 全 部 丢弃 。 在 这 种 情况 下 ， 经 过 整理 的 堆 可 以 提供 较 好 的 局 部 
性 ， 它 通常 可 以 将 相关 对 象 分 配 在 相同 的 页 ， 如 果 对 象 较 小 ， 甚 至 可 能 在 同一 个 高 速 缓存 
行 。 相 对 于 从 不 同 的 空闲 链表 中 进行 分 配 的 分 区 适应 分 配 ， 顺 序 分 配 的 高 速 缓存 命中 率 更 高 。 


4.3.2 空间 与 局 部 性 


半 区 复制 最 显而易见 的 缺点 是 需要 维护 第 二 个 半 区 ， 有 时 也 称 为 复制 保留 区 (copy 
reserve)。 在 内 存 大 小 一 定 ， 且 忽略 回收 器 所 需 数 据 结构 的 情况 下 ， 半 区 复制 回收 器 的 可 用 
内 存 空间 是 整 堆 回 收 器 的 一 半 ， 这 导致 复制 式 回 收 器 所 需 的 回收 次 数 比 其 他 回收 器 更 多 。 这 
一 “交易 ”究竟 会 导致 性 能 上 的 提升 还 是 下 降 ， 取 决 于 赋值 器 与 分 配器 之 间 的 平衡 、 应 用 程 
序 的 特征 、 可 用 堆 空 间 的 大 小 。 

通过 简单 的 渐进 复杂 度 分 析 可 以 看 出 ， 复 制式 回收 要 优 于 标记 一 清扫 回收 。 设 MM 是 堆 
的 整体 大 小 , L 为 存活 对 象 所 占据 的 空间 总 量 。 半 区 复制 回收 器 必须 在 存活 数据 中 完成 复制 、 
扫描 、 更 新 指针 的 操作 ， 标 记 一 清扫 算法 同样 必须 遍历 所 有 存活 对 象 ， 但 却 需 要 扫描 整个 
堆 。Jones[1996] 将 复制 式 回 收 与 标记 - 清扫 回收 的 时 间 复 杂 度 定义 如 下 : 

toopy = CL 

tus = mL+sM 
每 种 回收 器 回收 的 内 存量 为 : 

Meopy =M/2-L 

Mys =M -L 
wr = LM， 即 存活 数据 比例 ， 并 假定 其 为 固定 值 。 算 法 的 效率 可 以 通过 标记 /构造 率 来 描 
述 ， 即 赋值 器 每 分 配 一 个 对 象 所 对 应 的 回收 器 工作 量 。 我 们 用 e 表示 标记 /构造 率 ， 则 两 种 
算法 的 效率 分 别 是 : 

2cr 


Scop =I 9p 


O “代表 copy， 即 复制 ; m 代表 mark， 即 标记 ; s 代表 sweep， 即 清扫 。 一 一 译 者 注 
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mr+s 

Ems EE 
通过 图 4.5 中 的 标记 /构造 率 曲线 我 们 可 以 看 出 ， 在 堆 足 够 大 、+ 足够 小 的 情况 下 ， 复 

制式 回收 比 标记 一 清扫 回收 更 加 高 效 ， 但 这 一 简单 的 分 y 

析 方 法 忽略 了 几 个 因素 。 现 代 标 记 - 清扫 回收 器 通常 使 
用 懒惰 清扫 ， 因 此 缩短 了 清扫 时 间 s， 降 低 了 标记 / 构造 
率 e。 尽 管 Herts 和 Berger[2005] 通过 实验 证 实 了 曲线 
的 整体 形状 (例如 标记 一 清扫 回收 的 开销 与 堆 大 小 成 反 * 






己 /构造 率 (e) 


-标记 -清扫 
更 小 的 堆 


比 ), 但 是 仍 需 谨慎 对 待 复 杂 度 的 分 析 结 果 ， 因 为 它 忽略 存活 率 
了 具体 的 实现 细节 。 对 于 真正 的 回收 器 而 言 ， 具 体 的 实 ”图 4.5 标记 -清扫 回收 与 复制 式 回收 
现 细 节 十 分 重要 ， 但 这 些 细节 并 不 能 通过 复杂 度 分 析 反 的 标记 / 构造 率 ( 越 小 越 好 ) 


映 出 来 ， 例 如 顺序 分 配 所 具有 的 局 部 性 优势 [Blackburn 等 ，2004a]。 

虽然 顺序 分 配 有 助 于 将 同时 受到 赋值 器 访问 的 对 象 连续 排列 ， 从 而 提升 高 速 缓存 命中 
R, 但 是 复制 式 回收 却 会 将 堆 中 存活 对 象 重新 排列 。 尽 管 Cheney 回收 器 及 其 变种 不 需要 辅 
助 的 栈 来 引导 追踪 ,但 是 其 广度 优先 遍历 顺序 却 有 将 父 节点 与 子 节点 分 开 的 趋势 。 层 次 分 解 
策略 在 额外 追踪 栈 的 开销 与 对 象 排列 方式 的 优化 方面 进行 了 折 中 ， 尽 管 这 一 精心 设计 的 重 排 
列 方式 会 使 某 些 程序 受益 ， 但 其 作用 通常 微不足道 ， 究 其 原因 是 因为 大 部 分 对 象 寿命 较 短 ， 
通常 活 不 过 一 次 垃圾 回收 。 此 外 ,许多 应 用 程序 的 内 存 访问 操作 (特别 是 写 操作 ) 通常 都 集 
中 在 年 轻 的 对 象 上 [Blackburn and McKinley，2003]， 回 收 器 的 遍历 策略 也 无 法 影响 被 钉 住 
的 对 象 的 局 部 性 。 

Printezis 指出 ， 是 否 使 用 多 线程 并 行 回收 也 会 影响 复制 机 制 的 选择 。 与 使 用 Cheney [A 
列 相 比 ， 为 每 个 线程 使 用 独立 的 栈 可 以 通过 工作 窃取 (work stealing) 策略 实现 更 细 粒 度 的 
负载 均衡 ， 我 们 将 在 第 14 章 进行 详 述 。 


4.3.3 移动 对 象 


是 否 使 用 复制 式 回收 器 部 分 取决 于 移动 对 象 的 可 行 性 及 其 开销 。 在 某 些 环境 下 对 象 无 法 
移动 ， 一 方面 是 由 于 缺乏 精确 类 型 信息 (这 意味 着 某 个 槽 可 能 指向 了 一 个 “可 能 存在 ”的 对 
象 ， 此 时 对 该 槽 进行 修改 将 是 不 安全 的 )， 另 一 方面 是 由 于 对 象 被 传递 给 了 不 允许 引用 发 生 
变化 的 非 托管 代 码 〈 例 如 作为 系统 调用 的 参数 )。 此 外 ,在 标记 -=- 清扫 环境 下 的 指针 寻找 问 
题 通常 比 移 动 式 回 收 器 下 的 简单 。 对 于 非 移 动 式 回收 器 ， 找 到 指向 某 个 存活 对 象 的 一 个 引用 
就 已 经 足够 ， 但 移动 式 回收 器 却 一 定 要 找到 并 且 更 新 指向 被 移动 对 象 的 全 部 引用 。 正 如 我 们 
将 在 第 17 章 看 到 的 ， 这 一 问题 在 并 发 移动 式 回收 器 中 更 加 严重 ， 因 为 指向 某 一 对 象 的 所 有 
引用 必须 原子 化 地 进行 更 新 。 
某 些 对 象 的 复制 开销 很 大 ， 即 使 对 象 所 占用 的 空间 很 小 ， 对 其 进行 复制 的 开销 仍 可 能 会 
远大 于 标记 操作 的 开销 ， 但 与 此 相 比 ， 指 针 追 踪 以 及 获取 对 象 类 型 信息 的 开销 和 延迟 往往 更 
大 。 另 外 ,一遍 又 一 遍地 复制 不 包含 指针 的 大 对 象 将 会 导致 回收 器 性 能 的 下 降 。 一 种 解决 方 
案 是 不 复制 大 对 象 ， 转 而 将 其 交 由 非 移动 式 回 收 器 管理 ; 另 一 种 策略 是 使 用 虚拟 的 、 非 物理 
上 的 复制 ， 要 达到 这 一 目的 可 以 将 对 象 保存 在 由 回收 器 维护 的 链表 中 ， 或 者 将 大 对 象 分 配 在 
其 专属 的 、 可 以 二 次 映射 (remap) 的 虚拟 内 存 页 上 ,第 8 ~ 10 章 将 讨论 这 些 技术 。 


© 来 自 与 Tony Printezis 的 私人 交流 。 
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到 目前 为 止 ， 我 们 所 介绍 的 垃圾 回收 算法 都 是 间接 式 的 ， 它 们 都 需要 从 已 知 的 根 集合 出 
发 对 存活 对 象 图 进行 遍历 ， 进 而 才能 确定 所 有 的 存活 对 象 。 本 章 将 介绍 最 后 一 种 基本 回收 算 
法 : 引用 计数 (reference counting) [Collins，1960]。 在 引用 计数 算法 中 ， 对 象 的 存活 性 可 
以 通过 引用 关系 的 创建 或 删除 直接 判定 ， 从 而 无 须 像 追踪 式 回收 器 那样 先 通过 堆 遍 历 找 出 所 
有 的 存活 对 象 ， 然 后 再 反 向 确定 出 未 遍历 到 的 垃圾 对 象 。 

引用 计数 算法 所 依赖 的 是 一 个 十 分 简单 的 不 变 式 : 当 且 仅 当 指向 某 个 对 象 的 引用 数量 
大 于 零 时 ， 该 对 象 才 有 可 能 是 存活 的 9?。 在 引用 计数 算法 中 ， 每 个 对 象 都 需要 与 一 个 引用 计 
数 相 关联 ， 这 一 计数 通常 保存 在 对 象 头 部 的 某 个 槽 中 。 算 法 5.1 展示 了 最 简单 的 引用 计数 实 
现 ， 即 当 创 建 或 者 删除 某 一 对 象 的 引用 时 增加 或 者 减少 该 对 象 的 引用 计数 。write 方法 用 于 
增加 新 目标 对 象 的 引用 计数 ， 同 时 减少 旧 目 标 对 象 的 引用 计数 ， 即 使 对 于 局 部 变量 的 更 新 也 
需 如 此 。 我 们 同时 假设 ， 在 一 个 方法 返回 之 前 ， 赋 值 器 会 将 所 有 局 部 变量 中 的 引用 设置 为 
空 。addReference 方法 实现 对 象 引用 计数 的 增加 ， 相 应 地 ，deleteReference 实现 引用 计数 
的 减少 。 需 要 注意 的 是 ， 对 引用 计数 的 修改 要 遵循 先 增 后 减 的 顺序 (算法 5.1 中 的 第 9 ~ 10 
行 )， 否 则 当 新 对 象 和 老 对 象 相 同 ， 也 就 是 src [i] =ref 时 ， 可 能 导致 对 象 被 过 早 回收 。 一 旦 
某 一 对 象 的 引用 计数 降 至 零 (算法 5.1 中 的 第 20 行 )， 便 可 以 将 其 回收 ， 同 时 减少 其 所 有 子 
节点 的 引用 计数 ， 这 可 能 引发 子 节点 递归 式 的 回收 。 


算法 5.1 简单 的 引用 计数 算法 


1 New(): 
2 ref + allocate() 

3 if ref = null 

4 error "Out of memory" 
5 re(ref) + 0 

6 return ref 

7 

8 

9 


atomic Write(src, i, ref): 
addReference(ref) 
10 deleteReference(src[i]) 
u src[i] + ref 


3 addReference(ref): 
14 if ref # null 
15 rc(ref) + rc(ref) + 1 


v deleteReference(ref): 
18 if ref # null 
19 rc(ref) + rc(ref) 一 1 


日 引用 链 (reference listing) 算法 对 这 一 不 变 式 进行 了 修改 : 当 且 仅 当 持 有 某 一 对 象 的 客户 端 集 合 不 为 空 时 ， 才 
能 判定 对 象 存活 。 修 改 后 的 不 变 式 具有 一 定 的 容错 性 ， 例 如 集合 的 插入 和 删除 操作 是 过 等 的 而 非 算 术 的 。 该 
算法 在 分 布 式 系统 中 应 用 广泛 ， 例 如 Java 的 RMI 库 。 
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2 if rc(ref) = 0 

a for each fld in Pointers(ref) 
2 deleteReference(*f1d) 

z free(ref) 


算法 5.1 中 的 write 方法 是 写 屏 障 的 一 个 例子 ， 此 处 编译 器 在 真正 的 指针 写 操作 之 外 增 
加 了 一 些 简短 的 代码 序列 。 我 们 将 在 后 面 章节 看 到 ， 许 多 系统 中 的 赋值 器 都 需要 执行 一 些 额 
外 的 屏障 操作 。 更 确切 地 讲 ， 如 果 不 希 望 回 收 器 关注 整个 对 象 图 中 所 有 对 象 的 存活 性 ， 则 赋 
值 器 必须 承担 一 定 的 工作 。 此 类 回收 器 可 能 会 与 赋值 器 并 发 执行 : 要 么 在 赋值 器 的 引用 计数 
操作 中 立即 执行 ， 要 么 在 另 一 个 线程 中 异步 地 执行 。 另 外 ， 回 收 器 也 可 能 会 以 不 同 的 频率 来 
处 理 堆 中 不 同 区 域 的 对 象 ， 例 如 分 代 式 回收 器 。 在 这 些 情况 下 ， 赋 值 器 必须 引入 一 些 额外 的 
屏障 操作 来 确保 回收 算法 的 正确 性 。 


5.1 引用 计数 算法 的 优 缺 点 


引用 计数 算法 之 所 以 能 够 成 为 一 种 有 竞争 力 的 自动 内 存 管 理 策略 ， 是 由 下 面 几 个 原因 决 
定 的 。 引 用 计数 算法 的 内 存 管理 开销 分 摊 在 程序 运行 过 程 中 ， 同 时 一 旦 某 一 对 象 成 为 垃圾 便 
可 立即 得 到 回收 (但 在 后 文 我 们 将 看 到 ， 这 一 特性 并 非 对 所 有 场合 都 有 益 )， 因 此 引用 计数 算 
法 可 以 持续 操作 即将 填 满 的 堆 ， 而 不 必 像 追踪 式 回 收费 那样 需要 一 定 的 保留 空间 。 引 用 计数 
算法 直接 操作 指针 的 来 源 与 目标 ， 因 此 其 局 部 性 不 会 比 它 所 服务 的 应 用 程序 差 。 当 应 用 程序 
确定 某 一 对 象 并 非 共 享 对 象 时 ， 可 以 直接 对 其 进行 破坏 性 的 操作 而 无 须 事先 创建 副本 。 引 用 
计数 算法 的 实现 无 须 运 行 时 系统 的 支持 ， 特 别 是 无 须 确 定 程 序 的 根 。 即 使 当 系统 部 分 不 可 用 
时 ， 引 用 计数 算法 也 能 回收 部 分 内 存 ， 这 一 特性 在 分 布 式 系统 中 将 是 十 分 有 用 的 [Rodrigues 
and Jones, 1998]. 

正 是 由 于 这 些 原 因 ， 引 用 计数 算法 在 众多 系统 中 得 到 广泛 应 用 ,包括 一 些 编程 语言 实现 
(如 早期 的 Smalltalk 和 Lisp, VAR awk, perl 和 python )、 部 分 应 用 程序 (如 Photoshop, Real 
Networks 的 Rhapsody 音乐 服务 ，Océ 打印 、 扫 描 及 文档 管理 系统 ) 以 及 操作 系统 的 文件 管 
理 模 块 。 对 于 C++ 等 尚 不 支持 自动 内 存 管理 的 语言 ， 有 许多 支持 对 象 安全 回收 的 库 ， 它 们 
通常 使 用 智能 指针 (smart pointer) 来 访问 对 象 。 智 能 指针 通常 会 对 构造 函数 以 及 赋值 操作 进 
ITER ( overload)， 从 而 实现 对 象 所 有 权 的 独占 或 者 提供 引用 计数 能 力 。 唯 一 指针 (unique 
pointer) 能 确保 对 象 只 会 存在 一 个 “所 有 者 ”， 当 对 象 的 所 有 者 被 回收 时 ， 对 象 自身 也 将 
被 回收 。 例 如 ， 下 一 代 C++ 标准 预计 会 引入 unique_ptr 模版 类 9。 许 多 C++ 开发 者 使 用 智 
能 指针 的 引用 计数 能 力 来 实现 自动 内 存 管理 。C++ 中 最 著名 的 智能 指针 库 当 属 Boost ES, 
它 通 过 共享 指针 对 象 来 提供 引用 计数 能 力 。 智 能 指针 的 一 个 缺点 是 ， 尽 管 其 看 起 来 很 像 是 原 
生 指 针 , 但 是 它们 之 间 仍 存在 一 些 语义 上 的 差异 [Edelson，1992]。 

但 是 ， 引 用 计数 也 存在 一 系列 缺陷 。 第 一 ， 引 用 计数 给 赋值 器 带 来 了 额外 的 时 间 开 销 。 
与 前 面 章 节 中 介绍 的 追踪 式 回收 器 相 比 ， 为 管理 引用 计数 ， 算 法 5.1 对 指针 的 Read All write 
操作 都 进行 了 重 定 义 ， 这 将 导致 即使 某 些 不 具有 破坏 性 的 操作 也 必须 付出 一 定 的 额外 开销 ， 
例如 在 对 链表 进行 迭代 时 ,链表 中 每 个 对 象 的 引用 计数 都 需要 先 增加 ， 接 着 减少 一 次 。 从 性 
能 角度 来 看 ， 如 果 对 寄存 器 或 者 线程 栈 上 槽 的 操作 也 需要 引入 这 一 开销 ， 显 然 是 不 能 接受 


© 目前 C++11 标准 已 经 支持 unique_ptr。 一 一 译 者 注 
© C++ Boost J: http://www.boost.org. 
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的 。 因 此 仅 这 一 项 因素 便 决 定 了 引用 计数 算法 不 适用 于 通用 的 大 容量 、 高 性 能 内 存 管理 器 ， 
但 幸运 的 是 ， 我 们 可 以 通过 一 些 方法 来 大 幅 降低 引用 计数 操作 的 开销 。 

第 二 ,为 避免 多 线程 竞争 可 能 导致 的 对 象 释放 过 早 ， 引 用 计数 的 增 减 操作 以 及 加 载 和 存 
储 指 针 的 操作 都 必须 是 原子 化 的 ， 而 仅 对 引用 计数 的 增 减 操作 进行 保护 是 不 够 的 。 此 处 我 们 
暂且 不 谈 原子 化 的 实现 方式 ， 只 是 简单 地 假设 引用 计数 变更 操作 满足 原子 化 要 求 ， 然 后 在 第 
18 章 讨 论 引 用 计数 和 并 发 问题 的 细节 。 某 些 提 供 引 用 计数 的 智能 指针 库 需 要 调用 者 小 心 使 
用 以 避免 竞争 。 例 如 在 Boost 库 中 ， 对 于 一 个 shared ptr 实例 ， 并 发 线程 可 以 同时 对 其 进 
行 读 取 和 修改 操作 ,但 库 本 身 只 能 保证 对 引用 计数 的 操作 是 原子 化 的 ， 而 智能 指针 的 读 写 与 
引用 计数 增 减 这 个 整体 过 程 却 并 非 单独 的 原子 操作 。 因 此 ， 开 发 者 必须 避免 在 更 新 指针 槽 过 
程 中 可 能 出 现 的 竞争 问题 ， 否 则 将 可 能 产生 未 定义 的 行为 。 

第 三 ， 在 简单 的 引用 计数 算法 中 ， 即 使 是 只 读 操 作 也 需要 引发 一 次 内 存 写 请 求 (用 以 更 
新 引用 计数 )。 类 似 地 ， 对 某 一 指针 域 进 行 修 改 时 也 需要 对 该 域 原 本 指向 的 对 象 进行 读 写 操 
作 各 一 次 。 这 里 的 写 操作 会 “污染 ”高 速 缓存 ， 同 时 可 能 引发 额外 的 内 存 冲 突 。 

第 四 ， 引 用 计数 算法 无 法 回收 环 状 引用 数据 结构 ( 即 包含 自 引用 的 数据 结构 )。 即 使 此 
类 数据 结构 在 对 象 图 中 成 为 孤岛 〈 即 整体 不 可 达 时 )， 其 各 个 组 成 对 象 的 引用 计数 也 不 会 降 
至 零 。 但 是 ， 自 引用 数据 结构 十 分 普遍 (例如 双向 链表 、 存 在 从 子 节点 指向 根 节 点 的 指针 的 
树 等 )， 尽 管 在 不 同 程序 中 它们 的 出 现 频率 相差 较 大 [Bacon and Rajan，2001]。 

第 五 ， 在 最 坏 情 况 下 ， 某 一 对 象 的 引用 计数 可 能 等 于 堆 中 对 象 的 总 数 ， 这 意味 着 引用 
计数 所 占用 的 域 必须 与 一 个 指针 域 的 大 小 相同 ， 即 一 个 完整 的 构 。 鉴 于 面向 对 象 语言 中 对 
象 的 平均 大 小 通常 较 小 (例如 Java 程序 中 对 象 的 大 小 通常 是 20 一 64 字 节 [Dieckmann and 
Holzel, 1999, 2001; Blackburn 等 ，2006a])， 这 一 空间 开销 便 显得 十 分 昂贵 。 

最 后 ， 引 用 计数 算法 仍 有 可 能 导致 停顿 的 出 现 。 当 删除 某 一 大 型 指针 结构 根 节 点 的 
最 后 一 个 引用 时 ， 引 用 计数 算法 会 递归 地 删除 根 节点 的 每 一 个 子孙 节点 。Boehm[2004] 声 
称 ， 线 程 安全 的 引用 计数 回收 所 导致 的 最 大 停顿 时 间 可 能 会 比 追 踪 式 回收 需 的 还 要 长 。 
Weizenbaum[1969] 提出 了 一 种 懒惰 引用 计数 (lazy reference counting) 策略 ， 即 当 某 一 对 象 
的 引用 计数 降 至 零 时 ，aeleteReference 不 是 立即 将 其 回收 ， 而 是 将 其 添加 到 一 个 待 回收 对 
象 链表 中 ， 同 时 避免 毁坏 它 的 内 容 。 当 分 配器 重新 将 其 分 配 出 去 时 ， 才 对 其 子 节点 进行 处 
理 ， 从 而 避免 了 递归 释放 问题 。 但 这 一 技术 会 导致 某 些小 型 对 象 将 大 型 垃圾 对 象 隐 藏 ， 从 而 
提升 了 整体 空间 需求 [Boehm 2004]. 

在 引用 计数 算法 面临 的 主要 问题 中 ， 有 两 项 可 以 得 到 解决 ， 即 引用 计数 操作 的 开销 问题 
以 及 环 状 垃圾 的 回收 问题 。 对 于 这 两 个 问题 的 解决 ， 一 般 都 需要 引信 万 物 静止 式 的 停顿 ， 我 
们 将 在 第 18 章 探讨 如 何 放宽 这 一 限制 。 


52 提升 效率 


引用 计数 算法 的 效率 可 以 从 两 方面 进行 提升 : 一 方面 是 减少 屏障 操作 的 次 数 ， 另 一 方面 
是 用 更 加 廉价 的 非 同步 操作 来 替代 昂贵 的 同步 操作 。Blackburn 和 McKinley[2003] 将 各 种 解 
决 方案 分 类 如 下 : 

延迟 (deferral) 延迟 引用 计数 ( deferred reference counting) 以 牺牲 少量 细 粒 度 回 收 增 
量 的 时 效 性 ( 即 当 对 象 成 为 垃圾 时 立即 将 其 回收 ) 来 换取 效率 的 提升 。 该 方案 将 某 些 垃圾 对 
象 的 鉴别 推迟 到 某 一 时 段 结束 时 的 回收 阶段 中 ， 从 而 避免 了 某 些 屏障 操作 。 
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合并 (coalescing) 许多 引用 计数 操作 都 是 临时 性 的 、“ 不 必要 ”的 ， 开 发 者 可 以 手动 
去 掉 这 些 无 用 操作 ， 在 某 些 特殊 场景 下 编译 器 也 可 以 完成 这 一 工作 ， 但 更 加 通用 的 方法 可 能 
是 在 程序 运行 时 仅 跟踪 对 象 在 某 一 时 段 开始 和 结束 时 的 状态 。 在 单个 时 段 内 ,合并 引用 计数 
(coalescing reference counting) 只 关注 对 象 是 否 被 第 一 次 修改 ， 针 对 同一 对 象 的 再 次 修改 则 
会 被 忽略 。 

缓冲 (buffering) 缓冲 引用 计数 (buffered reference counting) 同样 会 延迟 垃圾 对 象 的 
鉴别 。 但 与 延迟 引用 计数 或 合并 引用 计数 不 同 ， 该 方案 将 所 有 的 引用 计数 增 减 操作 缓冲 起 来 
以 便 后 续 处 理 ， 同 时 只 有 回收 线程 可 以 执行 引用 计数 变更 操作 。 缓 冲 引 用 计数 关注 的 是 在 
“ 何 时 ”执行 引用 计数 变更 操作 ， 而 不 是 “是 否 ” 需 要 进行 变更 。 

引用 计数 算法 在 效率 方面 的 一 个 基本 障碍 是 : 对 象 的 引用 计数 是 程序 的 全 局 特征 之 一 ， 
但 通常 只 有 在 (线程) 局 部 状态 下 的 操作 才 更 加 高 效 9 。 上 述 三 种 方案 解决 这 一 问题 的 思想 都 
是 相通 的 ， 即 将 程序 的 执行 划分 为 一 系列 时 段 (epoch)， 在 同一 时 段 内 赋值 器 可 以 省 略 部 分 
甚至 所 有 的 同步 引用 计数 操作 ， 或 者 将 其 替换 为 〈 在 线程 本 地 缓冲 区 上 的 ) 非 同步 的 写 操作 。 
垃圾 的 鉴定 是 在 每 个 时 段 结束 时 进行 的 ， 此 时 便 需 要 将 赋值 器 线程 挂 起 ， 或 者 使 用 一 个 (或 
者 多 个 ) 独立 的 回收 器 线程 与 赋值 器 线程 并 发 进行 处 理 。 不 论 对 于 哪 种 方案 ， 单 个 时 段 内 的 
本 地 引用 计数 状态 变更 均 不 会 暴露 到 全 局 ( 即 : 使 用 原子 操作 来 将 引用 计数 的 状态 变更 作用 
到 全 局 )。 

本 章 将 讨论 延迟 引用 计数 与 合并 引用 计数 。 在 这 两 种 回收 算法 中 ， 相 邻 回收 时 段 会 被 万 
物 静 止 式 的 停顿 分 开 以 实现 引用 计数 的 修正 。 第 18 章 将 介绍 缓冲 引用 计数 如 何 将 引用 计数 
操作 转移 给 其 他 并 发 线程 ， 以 及 如 何 并 发 地 进行 合并 引用 计数 。 


5.3 延迟 引用 计数 


与 简单 的 追踪 式 回收 算法 相 比 ， 引 用 计数 操作 给 赋值 器 带 来 的 开销 相对 较 高 。 在 后 面 章 
节 中 我 们 将 看 到 ， 分 代 与 并 发 回收 算法 也 会 给 赋值 器 带 来 一 定 的 开销 ， 但 其 远 远 小 于 安全 地 
进行 引用 计数 操作 所 需 的 开销 。 算 法 5.1 中 的 指针 写 操作 需要 多 条 指令 才能 实现 (尽管 在 某 
些 条 件 下 编译 器 可 以 静态 优化 掉 某 些 判 断 )。 引 用 计数 的 变更 必须 是 原子 化 的 且 必 须 与 指针 
的 变更 保持 一 致 。 另 外 ， 写 操作 对 新 老 对 象 都 要 进行 修改 ， 从 而 很 可 能 导致 高 速 缓存 被 一 些 
无 法 立即 复 用 的 数据 污染 。 手 工 删除 无 用 的 引用 计数 操作 很 容易 出 错 ， 而 事实 证 明 ， 编 译 需 
优化 是 解决 这 一 问题 的 有 效 方案 [Cann and Oldehoeft，1988]。 

大 多 数 高 性 能 引用 计数 系统 ( 例 
如 Blackburn and McKinley[2003] ) 
都 使 用 延迟 引用 计数 策略 。 绝 大 多 数 
指针 加 载 操作 都 是 将 其 加 载 到 局 部 变 rl a Ooh pore eo 
BMA MA et, Maree eae PS. 延迟 引用 计数 示意 图 。 其 中 展示 了 在 进行 指针 加 载 






( ”立即 执行 引用 计数 


中 。Deutsch 和 Bobrow[1976] 在 很 早 或 者 存储 时 ， 赋 值 器 是 应 当 立 即 执行 引用 计数 操作 ， 
以 前 就 展示 了 如 何 移 除 这 一 情况 下 的 还 是 将 甚 延迟。 箭头 表示 指针 的 资源 和 目标 加 载 和 
引用 计数 操作 ， 即 只 有 当 赋 值 器 将 指 存储 的 方向 


针 写 入 堆 中 对 象 时 才 调 整 其 目标 对 象 Blackburn and McKinley[2003], doi; 10.1145/949305,94336. 
的 引用 计数 。 图 5.1 展示 了 延迟 引用 © 2003 Association for Computing Machinery, Inc., 经 许可 后 转载 
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计数 的 抽象 视图 ， 只 有 当 赋 值 器 操作 堆 中 对 象 时 产生 的 引用 计数 变更 才 会 立即 执行 ， 而 操作 
栈 或 寄存 器 所 产生 的 引用 计数 变更 则 会 被 延迟 执行 。 这 当然 是 要 付出 一 定 代价 的 : 如 果 忽 略 
局 部 变量 的 引用 计数 操作 ， 则 引用 计数 便 不 再 准确 ， 因 此 立即 回收 引用 计数 为 零 的 对 象 便 不 
再 安全 。 为 了 确保 所 有 的 垃圾 都 能 够 得 到 回收 ， 延 迟 引 用 计数 必须 引入 万 物 静止 式 的 停顿 来 
定期 修正 引用 计数 ， 但 幸运 的 是 ， 这 种 停顿 时 间 通 常会 比 追 踪 式 回收 器 用 的 时 间 短 ， 例 如 标 
记 一 清扫 回收 器 [Ungar, 1984]. 

在 算法 5.2 中 ， 赋 值 器 加 载 对 象 所 使 用 的 读 操作 是 第 1 章 中 所 介绍 的 简单 的 、 无 屏障 的 
实现 方案 ,将 引用 写 入 根 的 操作 也 是 无 屏障 的 ( 见 算法 5.2 中 的 第 14 行 ), 但 将 引用 写 入 堆 
中 对 象 时 却 必须 使 用 屏障 ， 在 这 种 情况 下 必须 立即 增加 新 对 象 的 引用 计数 ( 见 算法 5.2 中 的 
第 17 行 )。 当 某 一 对 象 的 引用 计数 变 为 零 时 ， 写 屏障 需要 将 其 添加 到 零 引 用 表 (zero count 
table, ZCT) 中 ， 而 不 能 立即 将 其 释放 ( 见 算法 5.2 中 的 第 26 行 )， 因 为 程序 栈 中 仍 可 能 存 
在 该 对 象 的 引用 ， 但 该 引用 并 未 计 和 人 到 对 象 的 引用 计数 中 。 零 引用 表 可 以 通过 多 种 方式 实 
现 ， 例 如 位 图 [Baden，1983] 或 者 哈 希 表 [Deutsch and Bobrow, 1976], MHL, 4 
用 表 中 包含 的 对 象 都 是 引用 计数 为 零 但 可 能 依旧 存活 的 对 象 。 当 赋值 器 把 某 一 零 引 用 对 象 的 
引用 写 入 堆 中 对 象 时 可 以 将 其 从 零 引用 表 中 移 除 ， 因 为 此 时 该 对 象 的 引用 计数 必然 为 一 个 正 
数 ( 见 算法 5.2 中 的 第 19 行 )， 这 一 策略 有 助 于 控制 零 引 用 表 的 大 小 。 

当 堆 可 用 内 存 耗 尽 时 (例如 分 配器 无 法 分 配 内 存 ) 就 必须 进行 垃圾 回收 。 回 收 器 需要 挂 
起 所 有 赋值 器 线程 并 检查 零 引 用 表 中 对 象 的 引用 计数 是 否 真正 为 零 。 对 于 零 引 用 表 中 的 对 
象 ， 只 有 当 其 被 一 个 或 者 多 个 根 引用 时 ， 该 对 象 才 可 以 被 确定 是 存活 的 。 确 定 零 引 用 表 中 
存活 对 象 的 最 简单 方法 是 对 根 所 指向 的 对 象 进行 扫描 ， 并 增加 其 引用 计数 ( 见 算法 5.2 中 的 
第 29 行 )， 这 一 步 完 成 后 ， 所 有 被 根 引用 的 对 象 的 引用 计数 必然 都 为 正 数 ， 而 引用 计数 为 零 
的 对 象 则 是 垃圾 。 为 实现 垃圾 对 象 的 回收 ,我 们 可 以 采用 与 标记 一 清扫 类 似 的 方法 (例如 算 
法 2.3 ) 扫描 整个 堆 ， 即 找到 且 回 收 所 有 引用 计数 为 零 的 “未 标记 ”对 象 ， 但 仅 扫描 零 引 用 
表 也 能 达到 相同 的 效果 ， 即 采用 与 算法 5.1 类 似 的 方法 来 处 理 并 释放 零 引 用 表 中 的 对 象 。 最 
后 ， 必 须 还 原 “ 标 记 ” 操 作 ， 即 再 次 对 根 进行 扫描 ， 并 将 其 目标 对 象 的 引用 计数 减 1 (即将 
引用 计数 恢复 到 其 原 有 的 值 )。 此 时 如 果 某 个 对 象 的 引用 计数 再 次 归 零 ， 则 需 重新 将 其 加 入 
零 引 用 表 。 

延迟 引用 计数 消除 了 赋值 器 操作 局 部 变量 时 的 引用 计数 变更 开销 。 一 些 较 早 的 研究 表 
明 ， 延 迟 引 用 计数 可 以 将 指针 操作 的 开销 减少 80% 甚至 更 多 [Ungar，1984; Baden, 1983], 
如 果 再 考虑 其 对 局 部 性 的 提升 ， 那 么 在 现代 硬件 条 件 下 ， 其 在 性 能 提升 方面 应 该 更 具 优势 。 
然而 ， 对 象 指针 域 的 引用 计数 操作 却 无 法 延迟 ， 而 必须 立即 执行 ， 且 必须 为 原子 操作 。 针 对 
这 一 问题 ， 我 们 将 在 接 下 来 的 一 节 中 探讨 ， 具 体 包 括 如何 使 用 简单 的 方法 替代 由 对 象 域 变 更 
引起 的 昂贵 的 引用 计数 原子 操作 ， 以 及 如 何 减少 引用 计数 的 修改 次 数 。 


算法 5.2 ”延迟 引用 计数 


1 New(): 

2 ref + allocate() 

3 if ref = null 

4 collect() 

5 ref + allocate() 

6 if ref = null 

7 error "Out of memory" 
8 rc(ref) + 0 
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9 add(zct, ref) 
10 return ref 


2 Write(src, i, ref): 


13 if src = Roots 

u src[i] + ref 

15 else 

16 atomic 

” addReference(ref) 

18 remove(zct, ref) 

19 deleteReferenceToZCT(src[i]) 

20 srcli] + ref 

a 

2 deleteReferenceToZCT(ref): 

z if ref # null 

u rc(ref) + zc(ref) 一 1 

25 if rc(ref) = 0 

26 add(zct, ref) /* 延迟 释放 */ 
27 

2% atomic collect(): 

29 for each fld in Roots /* 标记 栈 */ 
30 addReference(xfld) 

31 sweepZCT() 

2 for each fld in Roots /* 反 标 记 栈 */ 
33 deleteReferenceToZCT(*f1ld) 

34 

3% sweepZCT(): 

36 while not isEmpty(zct) 

37 ref + remove(zct) 

38 if rc(ref) = 0 /* 执行 垃圾 回收 */ 
39 for each fld in Pointers(ref) 

40 deleteReference(*fld) 

a free(ref) 


5.4 合并 引用 计数 


延迟 引用 计数 解决 了 赋值 器 操作 局 部 变量 时 的 引用 计数 变更 开销 ， 但 是 当 赋 值 器 将 某 一 
对 象 的 引用 存 人 堆 时 ， 引 用 计数 的 变更 开销 依然 无 法 避免 。Levanoni 和 Petrank[1999] 注意 
到 ， 对 于 任意 时 段 内 的 任意 对 象 域 ， 回 收 器 只 需 关 注 其 在 该 时 段 开始 和 结束 时 的 状态 ， 而 时 
段 内 的 引用 计数 操作 则 可 以 忽略 ， 因 此 可 以 将 对 象 的 多 个 状态 合并 成 两 个 。 例 如 ， 假 设 初 始 
状态 下 对 象 式 的 指针 域 J3 引 用 了 对 象 0,, 该 域 在 某 个 时 段 内 依次 被 修改 为 0,，0,;，…，0,， 
此 时 引用 计数 的 更 新 操作 如 下 所 示 : 


05 LOOT] EGG (09> 

中 间 状 态 的 一 对 操作 〈 见 实 线 框 内 ) 相互 抵消 了 ， 因 而 可 以 省 略 。Levanoni 和 Petrank 
的 方法 是 ， 在 每 个 时 段 内 ， 写 屏障 会 在 对 象 首次 得 到 修改 之 前 将 其 复制 到 本 地 日 志 中 。 对 于 
在 当前 时 段 尚未 修改 过 的 对 象 ， 当 赋值 器 更 新 其 某 一 指针 域 时 ， 算 法 5.3 会 捕获 这 一 操作 并 
将 对 象 的 地 址 及 其 每 个 指针 域 的 值 都 记录 到 本 地 更 新 缓冲 区 中 (算法 5.3 中 的 第 5 行 )， 同 时 
将 被 修改 的 对 象 标记 为 脏 。 

在 10g 方 法 中 ,为 避免 将 对 象 重复 加 入 线程 本 地 日 志 ， 算法 先 将 对 象 指针 域 的 初始 
值 添 加 到 日 志 中 (算法 5.3 中 的 第 11 行 )， 同时 只 有 当 sro 不 为 脏 时 才 将 其 添加 到 日 志 中 
(appendandcommit 方法 )， 然 后 再 增加 日 志 的 内 部 游标 (算法 5.3 中 的 第 13 行 )， 此 时 算法 需 
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要 将 对 象 打上 脏 标记 以 便 与 指针 域 进行 区 分 。 将 对 象 标记 为 脏 的 方法 是 将 其 在 日 志 中 对 应 条 
目的 地 址 写 入 其 头 域 。 需 要 注意 的 是 ， 即 使 竞争 导致 在 多 个 线程 本 地 缓冲 区 中 出 现 同 一 对 象 
的 条 目 ， 算 法 也 能 保证 各 个 条 目 包 含 相同 的 信息 ， 因 此 也 无 须 关 心 对 象 头 域 中 所 记录 的 日 志 
条 目 究竟 位 于 哪个 线程 的 本 地 缓冲 区 中 。 基 于 处 理 器 的 内 存 一 致 性 模型 ， 写 屏障 很 可 能 不 需 
要 任何 同步 操作 。 

算法 5.3 ”合并 引用 计数 : 写 屏障 


me +— myThreadId 


1 

2 

3 Write(src, i, ref): 

‘ if not dirty(src) 
5 log(src) 

6 src[i] «+ ref 

7 
8 
9 


log(obj): 
for each fld in Pointers(obj) 
10 if *fld Æ null 
u append(updates|me], *f1d) 
2 if not dirty(obj) 
13 slot + appendAndCommit(updates|me], obj) 
u setDirty(obj, slot) 


ws dirty(ob3): 
17 return logPointer(obj) # CLEAN 


» setDirty(obj, slot) 
20 logPointer(obj) + slot /* 对 象 obj Æ updates [me] 中 对 应 条 目的 地 址 */ 


本 章 中 我 们 将 简单 地 使 用 万 物 静止 式 停顿 来 周期 性 地 处 理 上 日志， 而 对 于 如 何在 赋值 器 
线程 执行 的 同时 并 发 处 理 合并 引用 计数 ， 将 在 后 面 章节 中 讨论 。 在 回收 周期 的 开始 阶段 ， 
算法 5.4 先 将 每 个 线程 挂 起 ， 然 后 将 每 个 线程 的 更 新 缓冲 区 合并 到 回收 器 的 日 志 中 ， 最 后 
再 为 每 个 线程 分 配 新 的 更 新 缓冲 区 。 上 文 提 到 ， 竞 争 关系 可 能 导致 多 个 线程 的 更 新 缓冲 
区 中 包含 同一 对 象 的 条 目 ， 这 就 要 求 回 收 器 确保 对 每 个 脏 对 象 只 会 进行 一 次 处 理 ， 因 此 
processReferenceCounts 方法 在 更 新 引用 计数 之 前 会 先 判断 对 象 是 否 为 胜 。 对 于 标记 为 脏 的 
对 象 ， 回 收 器 先 清 空 其 脏 标 记 以 确保 不 会 对 它 进行 重复 处 理 ， 然 后 将 回收 时 刻 ? 其 所 有 子 节 
点 的 引用 计数 加 1， 最 后 再 将 当前 时 段 内 该 对 象 首次 得 到 修改 之 前 的 子 节点 8 的 引用 计数 减 
1。 在 简单 的 引用 计数 系统 中 ， 一 旦 某 一 对 象 的 引用 计数 降 至 零 则 会 立即 得 到 递归 释放 ， 但 
如 果 算 法 将 局 部 变量 的 引用 计数 变更 延迟 ， 或 者 出 于 效率 原因 无 法 确保 所 有 的 引用 计数 的 增 
加 操作 先 于 减少 操作 执行 ， 则 需要 将 零 引 用 对 象 记录 到 零 引 用 表 中 。 在 该 时 段 内 ， 对 象 的 最 
初子 节点 可 以 直接 从 日 志 中 获得 ， 而 对 象 当 前 的 子 节点 则 可 以 从 对 象 自身 直接 获取 (日 志 
包含 了 该 对 象 的 引用 )。 另 外 ， 在 增加 和 减少 引用 计数 的 循环 中 ， 算 法 都 可 以 进行 对 象 或 者 
引用 计数 域 的 预 取 [Paz and Petrank, 2007]. 


算法 5.4 合并 引用 计数 : 更 新 引用 计数 
1 atomic collect(): 


O 即 当 前 时 刻 ， 时 段 结束 时 刻 。 一 一 译 者 注 
O 即 该 对 象 在 时 段 开 始 时 的 子 节点 。 一 一 译 者 注 


| 64 | 


[65] 





56 


collectBuffers() 
processReferenceCounts() 
sweepZCT() 


collectBuffers(): 


collectorLog ¢ | 
for each t in Threads 


u processReferenceCounts(): 


2 for each entry in collectorLog 


13 obj + objFromLog(entry) 
1 if dirty(obj) 


二 logPointer(obj) 全 CLEAN 


16 incrementNew(obj) 
7 decrementOld(entry) 


3 decrementOld(entry): 


20 for each fld in Pointers(entry) 
21 child ¢ +*fld 

2 if child Æ null 

a re(child) + rc(child) 一 1 
u if rc(child) = 0 

5 add(zct, child) 

2 

> incrementNew(obj): 

28 for each fld in Pointers(obj) 

» child + xfid 

30 if child Æ null 


2 


rc(child) + rc(child) + 1 


RSF 


collectorLog ¢ collectorLog + updates|t] 


/* 避免 重复 处 理 */ 


/* 使 用 回收 器 日 志 中 的 值 */ 


/* 使 用 对 象 中 的 值 */ 


我 们 以 图 5.2 为 例 来 演示 合并 引用 计数 的 处 理 过 程 。 假 设 对 象 A 的 某 个 指针 域 在 某 一 时 


段 内 从 对 象 C 修改 为 对 象 D， 则 在 该 时 
段 结束 时 ， 对 象 A 的 两 个 指针 域 原 有 的 
值 (B 和 C) 则 已 经 记录 在 回收 器 日 志 中 
(图 5.2 的 左边 ) 了 ， 因 此 回收 器 会 增加 
对 象 B 和 对 象 D 的 引用 计数 ， 同 时 减少 
WR BAC 的 引用 计数 。 由 于 对 象 A 中 
指向 对 象 B 的 指针 域 并 未 修改 ， 因 此 对 
象 B 的 引用 计数 不 变 。 

将 延迟 引用 计数 与 合并 引用 计数 相 
结合 可 以 降低 赋值 器 上 大 部 分 引用 计数 
操作 的 开销 。 特 别 需 要 指出 的 是 ， 我 们 





| 


图 5.2 合并 引用 计数 : 假设 对 象 A 在 上 一 个 时 段 内 被 


修改 ,例如 将 指向 对 象 C 的 引用 修改 为 指向 对 
BD, WA 的 引用 域 会 被 记录 到 日 志 中 。 原 本 
指向 对 象 C 的 引用 可 以 从 日 志 中 找到 ， 而 当前 
指向 对 象 D 的 引用 可 以 直接 从 对 象 A 中 获取 


通过 这 两 种 方法 消除 了 赋值 器 线程 对 昂贵 的 同步 操作 的 依赖 ， 但 这 些 收益 也 是 要 付出 一 定 代 
价 的 。 为 了 进行 垃圾 回收 ， 我 们 要 再 次 引入 了 停顿 ， 尽 管 这 一 停顿 的 时 间 可 能 会 比 追 踪 式 回 
收 器 短 。 我 们 降低 了 回收 的 时 效 性 (垃圾 对 象 只 有 在 时 段 结 束 时 刻 才 能 得 到 回收 )， 同 时 日 
志 缓 冲 区 与 零 引 用 表 也 带 来 了 额外 的 空间 开销 。 在 合并 引用 计数 中 ， 对 于 一 个 从 未 得 到 修改 
的 指针 槽 ， 它 所 指向 的 对 象 仍 有 可 能 需要 回收 器 各 增删 引用 计数 一 次 。 


© 如 图 5.2 中 的 对 象 B。 一 一 译 者 注 


71A i k 57 


5.5 环 状 引用 计数 


对 于 环 状 数据 结构 而 言 ， 其 内 部 对 象 的 引用 计数 至 少 为 1， 因此 仅 靠 引用 计数 本 身 无 法 
回收 环 状 垃圾 。 不 论 是 在 应 用 程序 还 是 在 运行 时 系统 中 ， 环 状 数据 结构 都 十 分 普遍 ， 如 双 癌 
链表 或 者 环 状 缓冲 区 。 对 象 - 关 系 映射 (object-relations mapping) 系统 可 能 要 求 数据 库 和 
其 中 的 表 互 相 引 用 对 方 的 一 些 信息 。 真 实 世 界 中 的 某 些 结构 天 然 就 是 环 状 的 ， 例 如 地 理 信息 
系统 中 的 道路 。 懒 惰 函 数 式 语言 (lazy functional language) 通常 使 用 环 来 表示 递归 [Turner， 
1979, Y 组 合子 ( Combinator) ]。 研 究 者 们 提出 了 多 种 解决 环 状 引用 计数 问题 的 策略 ， 我 们 
介绍 其 中 的 几 种 。 

最 简单 的 策略 是 在 引用 计数 之 外 偶尔 使 用 追踪 式 回收 作为 补充 。 该 方法 假定 大 多 数 对 象 
不 会 被 环 状 数据 结构 所 引用 ， 因 此 可 以 通过 引用 计数 方法 实现 快速 回收 ， genni 
负责 处 理 剩 余 的 环 状 数据 结构 。 这 一 方案 简单 地 减少 了 追踪 式 回收 的 发 起 频率 。 在 语言 层 
E, Friedman 和 Wise[1979] 发 现 ， 纯 函数 式 语言 中 只 有 递归 定义 才 会 产生 环 ， ee 
从 一 定 的 规则 便 可 对 这 种 情况 下 的 环 状 引 用 计数 进行 特殊 处 理 。 在 Bobrow[1980] 的 方法 中 ， 
开发 者 可 以 把 一 组 对 象 作为 整体 进行 引用 计数 操作 ， 当 整体 引用 计数 为 零 时 便 可 将 其 集体 
回收 。 

许多 学 者 建议 将 导致 闭环 出 现 的 指针 与 其 他 指针 进行 区 分 [Friedman and Wise, 1979 ; 
Brownbridge, 1985; Salkild, 1987; Pepels 等 ，1988 ; Axford，1990]。 他 们 将 普通 引用 称 
为 强 引 用 (strong reference)， 将 导致 闭环 出 现 的 引用 称 为 弱 引 用 (weak reference)。 如 果 不 
允许 强 引 用 组 成 环 ， 则 强 引 用 图 可 以 使 用 标准 引用 计数 算法 处 理 。Brownbridge 的 算法 得 到 
了 广泛 应 用 ， 简 而 言 之 ,每 个 对 象 需要 包含 一 个 强 引 用 计数 以 及 一 个 弱 引 用 计数 ， 在 进行 写 
操作 时 ， 写 屏障 会 检测 指针 以 及 目标 对 象 的 强 弱 ， 并 将 所 有 可 能 产生 环 的 引用 设置 为 弱 引 
用 。 为 维护 “所 有 可 达 对 象 均 为 强 可 达 ， 且 强 引用 不 产生 环 ” 这 一 不 变 式 ， 赋 值 器 在 删除 
引用 时 可 能 需要 改变 指针 的 强 弱 属 性 。 但 是 ， 这 一 算法 并 不 安全 ， 且 可 能 导致 对 象 提前 被 回 
收 ， 具 体 可 以 参见 Salkild 的 引用 计数 示例 [Jones，1996，6.5 节 ]。Salkild[1987] 对 该 算法 
进行 修正 并 提升 了 它 的 安全 性 ， 但 代价 是 在 某 些 情况 下 算法 将 无 法 结束 。Pepels 等 [1988] 提 
出 了 一 种 非常 复杂 的 解决 方案 ， 但 该 算法 在 空间 以 及 性 能 方面 的 开销 却 更 加 明显 : 与 普通 的 
引用 计数 相 比 ， 其 所 需 的 空间 开销 翻 倍 ， 在 大 多 数 情况 下 ， 其 性 能 开销 是 标准 引用 计数 的 两 
倍 ， 在 极端 情况 下 ， 甚 至 会 呈现 指数 级 增长 。 

在 所 有 能 够 处 理 环 状 数据 结构 的 引用 计数 算法 中 ， 得 到 了 最 广泛 认可 的 是 试验 删除 
(trial deletion) 算法 。 该 算法 无 须 使 用 后 备 的 追踪 式 回 收 器 来 进行 整个 存活 对 象 图 的 扫描 ， 
相反 ， 它 将 注意 力 集中 在 可 能 会 因 删 除 引用 而 产生 环 状 垃圾 的 局 部 对 象 图 上 。 在 引用 计数 算 
法 中 : 

© 在 环 状 垃圾 指针 结构 内 部 ， 所 有 对 象 的 引用 计数 均 由 其 内 部 对 象 之 间 的 指针 产生 。 

e 只 有 在 删除 某 一 对 象 的 某 个 引用 后 该 对 象 的 引用 计数 仍 大 于 零 时 ， 才 有 可 能 出 现 环 

状 垃圾 。 

部 分 追踪 (partial tracing) 算法 充分 利用 上 述 两 个 结论 ， 该 算法 从 一 个 可 能 是 垃圾 的 对 
象 开始 进行 子 图 追踪 。 对 于 遍历 到 的 每 个 引用 ， 算 法 将 对 其 目标 对 象 进行 试验 删除 ， 即 临时 
性 地 减少 目标 对 象 的 引用 计数 ， 从 而 移 除 由 内 部 指针 产生 的 引用 计数 。 追 踪 完 成 后 ， 如 果 某 
个 对 象 的 引用 计数 仍然 不 是 零 ， 则 必然 是 因为 子 图 之 外 的 其 他 对 象 引 用 了 该 对 象 ， 进 而 可 以 
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判定 该 对 象 及 其 传递 闭 包 都 不 是 垃圾 。 

Recycler 算法 [Bacon 等 ，2001 ; Bacon and Rajan, 2001; Paz 等 ，2007] 支持 环 状 引用 
计数 的 并 发 回收 。 算 法 5.5 仅 演 示 了 该 算法 较为 简单 的 同步 版 本 ,异步 回收 的 版 本 则 在 第 15 
章 进行 讨论 。 环 状 数据 结构 的 回收 分 为 3 个 阶段 : 

首先 ， 回 收 器 从 某 个 可 能 是 环 状 垃圾 成 员 的 对 象 出 发 进行 子 图 追踪 ， 同 时 减少 由 内 部 指 
针 产 生 的 引用 计数 (markcandidates 方法 )。 算 法 将 遍历 到 的 对 象 着 为 灰色 。 

其 次 ， 对 子 图 中 的 所 有 对 象 进行 检测 ， 如 果 某 一 对 象 的 引用 计数 不 是 零 ， 则 该 对 象 必然 
被 子 图 外 的 其 他 对 象 引 用 。 此 时 需要 对 第 一 阶段 的 试验 删除 操作 (scan 方法 ) 进行 修正 ， 算 
法 将 存活 的 灰色 对 象 重新 着 为 黑色 ， 同 时 将 其 他 灰色 对 象 着 为 白色 。 

最 后 ， 子 图 中 所 有 依然 为 白色 的 对 象 必然 是 垃圾 ， 算 法 可 以 将 其 回收 (collectcandidates 

方法 )。 


算法 5.5 Recycler 算法 


New(): 
ref + allocate() 
if ref = null 
collect() /* 环 状 引用 回收 器 */ 
ref + allocate() 
if ref = null 
error "Out of memory" 
rc(ref) + 0 
return ref 


eo ey awe DN m 


u addReference(ref): 

2 if ref # null 

B rc(ref) + rc(ref) + 1 

u colour(ref) + black /* 不 可 能 在 环 状 垃圾 中 */ 


1 deleteReference(ref): 

17 if ref # null 

18 rc(ref) + rc(ref) 一 1 

19 if rc(ref) = 0 

20 release(ref) 

a else 

candidate(ref) /* 可 能 是 一 个 环 状 垃圾 */ 


release(ref): 
for each fld in Pointers(ref) 
deleteReference(fld) 
colour(ref) + black /* 空闲 链表 中 的 对 象 均 为 黑色 */ 
if not ref in candidates /* 备 选 垃圾 将 稍 后 处 理 */ 
free(ref) 
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candidate(ref): /* 将 ref 标记 为 备 选 垃圾 ， 并 将 其 添加 到 集合 中 */ 
if colour(ref) # purple 
colour(ref) + purple 
candidates + candidates U {ref} 


4 


atomic collect(): 
markCandidates() 
for each ref in candidates 
scan(ref) 
collectCandidates() 


markCandidates() 


ssa sea RekBB 
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2 for ref in candidates 

四 if colour(ref) = purple 

“ markGrey(ref) 

45 else 

46 remove(candidates, ref) 

v if colour(ref) = black & rc(ref) = 0 
s free(ref) 


s markGrey(ref): 
sl if colour(ref) # grey 
colour(ref) + grey 
for each fld in Pointers(ref) 
child + +fld_ 
if child Æ null 
re(child) + rc(child) — 1 /* 试验 删除 */ 
markGrey(child) 


scan(ref): 
if colour(ref) = grey 
if rc(ref) > 0 
scanBlack(ref) /* 必然 存在 外 部 引用 */ 
else 
colour(ref) + white /* 像 是 垃圾 ... */ 
for each fld in Pointers(ref) /* ... 继续 */ 
child + *fld 
if child # null 
scan(child) 
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scanBlack(ref): /* 修正 存活 对 象 的 引用 计数 */ 
colour(ref) + black 
for each fld in Pointers(ref) 
child ¢ xfld 
if child Æ null 
re(child) + re(child) + 1 /* 反 向 试验 删除 */ 
if colour(child) # black 
scanBlack(child) 
collectCandidates(): 
while not isEmpty(candidates) 
ref + remove(candidates) 
collectWhite(ref) 
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collectWhite(ref): 
if colour(ref) = white & not ref in candidates 
colour(ref) + black /* 空闲 链表 中 的 对 象 为 黑色 */ 
for each fld in Pointers(ref) 
child ¢ «fla 
if child # null 
collectWhite(child) 
free(ref) 


次 


同步 模式 下 的 Recycler 算法 使 用 五 种 颜色 来 区 分 对 象 。 与 其 他 算法 一 样 ， 黑 色 代 表 存 
活 ， 白 色 代表 垃圾 ,而 灰色 代表 对 象 可 能 是 环 状 垃圾 中 的 一 个 成 员 ， 紫 色 表 示 对 象 可 能 是 环 
状 垃圾 的 一 个 备 选 根 。 

如 果 删 除 指向 某 一 对 象 的 一 个 引用 之 后 其 引用 计数 依然 不 是 零 ， 则 可 能 导致 环 状 垃圾 的 
产生 ， 因 此 算法 5.5 将 其 标记 为 紫色 ， 同 时 将 其 添加 到 环 状 垃圾 备 选 成 员 集合 中 〈 算 法 5.5 
中 的 第 22 行 )。 另 外 ， 如 果 删 除 指向 某 一 对 象 的 一 个 引用 后 其 引用 计数 降 至 零 ， 则 该 对 象 必 
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PRELIM, release 方法 会 将 其 修改 为 黑色 ， 并 递归 地 处 理 其 子 节点 。 此 时 如 果 该 对 象 不 是 
备 选 垃圾 ，release 方法 会 直接 将 其 释放 ， 而 如 果 对 象 包含 在 candidates 集合 中 ， 对 该 对 象 
的 回收 将 会 推迟 到 markcandidates 阶段 。 如 图 5.3a 中 ， 当 删除 某 一 指向 对 象 A 的 引用 后 ， 
MRA 的 引用 计数 仍然 不 是 零 ， 此 时 会 将 该 对 象 添 加 到 candidates 集合 中 。 

在 回收 的 第 一 阶段 ，markcandiaates 方法 首先 限定 可 能 是 环 状 垃圾 的 对 象 的 范围 ， 并 消 
除 内 部 引用 对 引用 计数 的 影响 。 该 阶段 会 检测 candidates 集合 中 的 每 个 对 象 。 如 果 对 象 依 
然 是 紫色 ( 即 在 该 对 象 被 添加 到 candidates 集合 之 后 ， 再 没有 新 的 引用 指向 该 对 象 )， 则 将 
其 递归 闭 包 都 标记 为 灰色 ， 否 则 便 将 其 从 集合 中 移 除 。 如 果 对 象 为 黑色 且 引 用 计数 为 零 ， 则 
立即 将 其 回收 。markerey 在 追踪 过 程 中 会 将 其 所 遍历 到 的 每 个 对 象 的 引用 计数 减 1。 因 此 在 
图 5.3b 中 ， 从 A 开始 的 子 图 已 被 着 为 灰色 ， 且 由 子 图 内 部 引用 所 产生 的 引用 计数 都 已 经 得 
到 消除 。 

在 回收 的 第 二 阶段 ， 算 法 会 对 备 选 垃圾 及 其 灰色 传递 闭 包 进 行 扫描 ， 同 时 找 出 哪些 对 象 
存在 外 部 引用 。 如 果 某 一 对 象 的 引用 计数 不 是 零 ， 则 其 必然 受到 灰色 子 图 之 外 的 某 个 对 象 的 
引用 ， 在 这 种 情况 下 ，scanBlack 会 对 由 markGrey 造成 的 引用 计数 减少 操作 进行 补偿 ， 即 增 
加 对 象 的 引用 计数 并 将 其 着 为 黑色 ; 如 果 对 象 的 引用 计数 为 零 ， 则 将 其 着 为 白色 ， 并 继续 扫 
描 其 子 节点 。 需 要 注意 的 是 ， 这 里 不 能 将 白色 对 象 与 垃圾 等 价 ， 因 为 如 果 scanBlack 方法 从 
另 一 个 节点 开始 进行 子 图 遍历 ， 则 有 可 能 再 次 访问 到 白色 对 象 。 如 图 5.3b 中 ， 尽 管 对 象 Y 
和 2Z 的 引用 计数 均 为 零 ， 但 它们 依旧 通过 外 部 对 象 X 可 达 。 当 scan 方法 遍历 到 对 象 X 时 会 
发 现 它 的 引用 计数 不 是 零 ， 此 时 算法 会 调用 scanBlack 方法 来 修正 其 灰色 传递 闭 包 中 对 象 的 
引用 计数 。 子 图 最 终 的 状态 如 图 5.3c 所 示 。 

最 后 ， 在 回收 的 第 三 阶段 ，collectwhite 方法 将 回收 白色 (垃圾) 对象 。 该 方法 将 清空 
candidates 集合 ， 同 时 将 遍历 到 的 每 个 白色 对 象 释放 (并 将 其 重 置 为 黑色 )， 然 后 再 递归 处 
理 其 子 节点 。 需 要 注意 的 是 ，collectwhite 方法 不 会 处 理 已 经 存在 于 candidates 集合 中 的 
子 对 象 ， 它 们 将 在 collectcandidates 方法 内 的 后 续 循 环 中 得 到 处 理 。 





a) 在 markGray 之 前 b) 在 markGray 之 后 ， 算 法 将 所 有 从 备 选 垃圾 可 达 的 对 
象 都 着 为 灰色 ， 同 时 会 去 掉 由 内 部 指针 产生 的 引用 计 
数 。 注 意 ， 对 象 和 依然 可 达 ， 因 为 其 引用 计数 不 是 零 


备 选 垃圾 EA 
Y 





c) Æ scan 之 后 ， 所 有 可 达 对 象 均 为 黑色 ， 且 对 象 的 引用 计数 都 已 修正 为 其 真正 被 引用 的 次 数 
图 5.3 ” 环 状 引用 计数 (每 个 对 象 的 第 一 个 域 为 其 引用 计数 ) 
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异步 Recycler 算法 基于 早期 的 试验 删除 算法 改进 而 来 ,例如 Martinez % [1990] 的 算法 ， 
该 算法 在 发 现 备 选 垃圾 时 会 立即 进行 试验 删除 。Lins[1992] 采用 与 Recycler 算法 类 似 的 方法 
来 对 备 选 垃圾 进行 懒惰 处 理 ， 该 算法 期 望 赋值 器 能 在 后 续 操 作 中 消除 备 选 垃 圾 , 即 要 么 赋值 
器 会 删除 指向 备 选 垃圾 的 最 后 一 个 引用 使 其 立即 得 到 回收 ， 要 么 会 为 其 增加 一 个 新 的 引用 8。 
但 Lins 的 算法 需要 为 每 个 对 象 分 别 进行 三 个 阶段 的 回收 处 理 ， 在 最 差 情 况 下 ,算法 的 复杂 
度 将 与 对 象 图 大 小 的 平方 成 正比 ， 相 比 之 下 ，Recycler 算法 的 复杂 度 是 O(N+ E)， 其 中 入 是 
节点 数量 , E 为 边 数量 。 这 一 看 起 来 很 小 的 区 别 却 会 在 性 能 方面 造成 很 大 的 差异 ， 对 于 中 等 
大 小 的 Java 程序 ，Lins 算法 最 大 可 能 需要 数 分 钟 级 的 回收 时 间 ， 而 Recycler 算法 则 只 需要 
毫秒 级 别 的 回收 时 间 。 

对 某 些 类 型 的 对 象 进 行 特殊 处 理 可 以 进一步 提升 回收 性 能 。 此 类 对 象 包括 不 包含 指针 
的 对 象 、 永 远 不 可 能 是 环 状 数据 结构 成 员 的 对 象 等 。Recycler 算法 在 分 配 这 些 对 象 时 会 将 其 
着 为 绿色 而 非 黑 色 ， 同 时 决 不 会 将 其 加 入 备 选 垃圾 集合 中 ， 更 不 会 对 其 进行 追踪 。Bacon 和 
Rajan[2001] 发 现 这 一 方法 可 以 将 备 选 垃圾 集合 的 大 小 降低 一 个 数量 级 。 图 5.4 描述 了 同步 
Recycler 算法 完整 的 对 象 状 态 转化 ， 包 括 绿色 节点 在 内 。 











图 5.4 同步 Recycler 算法 的 状态 转换 图 ， 展 示 了 赋值 器 和 回收 器 的 各 项 操作 以 及 对 象 的 颜色 
Springer Science+Business Media: Bacon and Rajan [2001]， 图 3， 第 213 页 ， 经 许可 后 转载 


5.6 ” 受 限 域 引用 计数 


对 象 的 引用 计数 在 其 头 部 所 占用 的 空间 也 是 值得 注意 的 。 从 理论 上 讲 ， 某 一 对 象 可 能 
会 被 堆 中 所 有 的 对 象 引 用 ， 因 此 引用 计数 域 的 大 小 应 当 与 指针 域 的 大 小 相同 ， 但 对 于 小 对 
象 而 言 ， 这 一 级 别 的 空间 开销 显得 太 过 昂贵 。 在 实际 应 用 中 ， 大 部 分 对 象 的 引用 计数 通常 
较 小 ， 除 非 是 有 意 为 之 才 会 变 得 很 大 。 另 外 ， 大 部 分 对 象 都 不 是 共享 对 象 ， 一 旦 指向 它 
们 的 指针 被 删除 ， 这 些 对 象 便 可 立即 得 到 复 用 [Clark and Green, 1977 ; Stoye 等 ，1984 ; 
Hartel，1988]， 这 一 特性 允许 函数 式 语 言 对 诸如 数组 等 对 象 进行 原 地 更 新 ， 而 不 必 基 于 其 
新 的 副本 进行 修改 。 如 果 事 先知 道 引用 计数 可 能 达到 的 上 限 ， 则 可 以 使 用 较 小 的 域 来 记录 引 
用 计数 ， 但 许多 程序 中 通常 都 会 存在 一 些 被 广泛 引用 的 对 象 popular object) [Printezis and 


O 从 而 使 其 不 再 可 能 是 备 选 垃圾 。 一 一 译 者 注 


71 
72 


[73 ] 





62 RSF 


Garthwaite, 2002]. 

在 面 对 引 用 计数 偶尔 超出 上 限 的 问题 时 ， 如 果 能 够 引入 后 备 处 理 机 制 ， 则 仍 有 可 能 限制 
引用 计数 域 的 大 小 。 一 旦 某 个 对 象 的 引用 计数 达到 允许 的 最 大 值 ， 可 以 将 其 转变 成 粘性 引用 
计数 ( sticky reference count)， 即 之 后 的 任何 指针 操作 都 不 再 改变 该 对 象 的 引用 计数 值 。 最 
极端 的 选择 是 仅 使 用 一 个 位 来 表示 引用 计数 ， 从 而 将 引用 计数 的 能 力 集 中 在 非 共 享 对 象 上 。 
该 位 可 以 保存 在 对 象 中 [Wise and Friedman，1977]， 也 可 以 记录 在 指针 上 [Stoye 等 ，1984]。 
受 限 域 引用 计数 的 必然 结果 是 : 一 旦 对 象 的 引用 计数 超出 上 限 ， 则 不 能 再 通过 引用 计数 来 回 
收 对 象 ， 此 时 就 需要 后 备 的 追踪 式 回 收 器 来 处 理 这 种 对 象 。 追 踪 式 回收 器 在 遍历 每 个 指针 时 
可 以 将 对 象 的 引用 计数 修复 到 正确 的 值 (不 论 该 对 象 的 引用 计数 是 否 超 限 )。Wise[1993a] 表 
示 ， 标 记 一 整理 和 复制 式 回 收费 经 过 适当 改造 也 能 恢复 对 象 的 唯一 性 信息 。 后 备 的 追踪 式 回 
收 器 应 当 在 任何 情况 下 都 能 回收 环 状 垃圾 。 


5.7 需要 考虑 的 问题 


引用 计数 算法 的 回收 时 效 性 较 高 ， 且 具有 较 好 的 局 部 性 ， 因 而 具有 一 定 的 吸引 力 。 简 单 
的 引用 计数 算法 可 以 保证 垃圾 对 象 在 其 最 后 一 个 引用 被 删除 时 立即 得 到 回收 。 引 用 计数 的 
变更 只 会 引发 新 老 指针 目标 对 象 的 读 写 操作 ， 而 追踪 式 回收 器 却 需要 遍历 堆 中 所 有 的 存活 对 
象 ， 但 对 于 简单 引用 计数 来 说 ， 这 一 优势 同时 也 是 其 劣势 。 只 有 在 指向 对 象 的 最 后 一 个 指针 
被 删除 时 ， 对 象 才能 得 到 回收 ， 因 而 引用 计数 无 法 处 理 环 状 垃圾 。 每 次 指针 读 写 操作 都 需要 
伴随 引用 计数 变更 操作 ， 因 此 相对 于 追踪 式 回 收 器 而 言 ， 引 用 计数 在 吞吐 量 方面 的 开销 更 
大 。 多 线程 应 用 程序 中 的 引用 计数 变更 操作 需要 使 用 昂贵 的 同步 操作 。 赋 值 器 和 内 存 管理 器 
之 间 的 紧 耦 合 关系 将 导致 程序 变 得 脆弱 ， 特 别 是 当 开 发 者 手动 优化 掉 “ 不 必要 ”的 引用 计数 
时 ， 这 一 情况 将 更 加 严重 。 最 后 ， 引 用 计数 增 大 了 对 象 的 空间 大 小 。 


5.7.1 应 用 场景 


尽管 引用 计数 的 方法 存在 诸多 问题 ， 但 是 不 经 考虑 就 将 其 抛弃 也 是 不 可 取 的 。 诚 然 ， 简 
单 的 引用 计数 算法 中 所 存在 的 缺陷 决定 了 它 并 不 是 虚拟 机 中 通用 内 存 管理 模块 的 有 力 竞争 
者 ， 特 别 是 在 对 象 较 小 、 环 状 引用 较为 普遍 、 指 针 赋 值 率 较 高 的 场景 下 。 但 引用 计数 方法 在 
某 些 场景 下 依然 十 分 有 用 。 在 大 多 数 对 象 的 生命 周期 简单 到 可 以 直接 进行 管理 的 混合 场景 ， 
引用 计数 算法 可 以 较 好 地 发 挥 功效 。 引 用 计数 算法 可 以 用 于 管理 数量 较 少 但 所 有 者 关系 复杂 
的 资源 。 这 些 资 源 通常 较 大 ， 因 此 头 部 中 引用 计数 域 的 额外 开销 通常 可 以 忽略 。 某 些 数据 结 
构 并 不 包含 指针 ， 因 此 也 不 会 出 现 环 状 引用 ， 例 如 图 像 中 的 位 图 。 另 外 ， 引 用 计数 算法 可 以 
在 代码 库 中 实现 ， 从 而 无 需 作 为 语言 的 运行 时 系统 的 一 部 分 ， 因 此 开发 者 可 以 完全 控制 引用 
计数 的 使 用 ， 进 而 可 以 自主 决定 性 能 开销 与 安全 性 之 间 的 平衡 。 但 不 论 如 何 ， 使 用 引用 计数 
时 都 应 当 小 心 谨慎 。 对 于 多 线程 环境 下 的 指针 修改 以 及 引用 计数 更 新 中 可 能 存在 的 竞争 ， 开 
发 者 必须 能 避免 。 如 果 通 过 智能 指针 来 实现 引用 计数 ， 则 开发 者 必须 明确 它 与 原生 指针 在 语 
义 上 的 差异 ， 正 如 Edelson[1992] 所 指出 的 :“ 它 们 虽然 智能 ， 但 并 非 指针 ”。 


5.7.2 ”高 级 的 解决 方案 


高 级 引用 计数 算法 可 以 解决 原生 引用 计数 算法 中 存在 的 诸多 问题 ， 但 矛盾 的 是 ， 这 些 算 
法 却 需要 引入 与 追踪 式 回收 类 似 的 万 物 静 止 式 停顿 。 下 一 章 将 进一步 讨论 这 一 具有 两 面 性 的 


71 A tt 63 


问题 。 

正如 5.5 节 所 描述 的 ， 环 状 垃圾 可 以 由 后 备 的 追踪 式 回收 器 或 者 试验 删除 算法 来 处 理 ， 
但 这 两 种 策略 都 需要 在 回收 环 状 数据 时 挂 起 赋值 器 线程 〈( 后 面 章节 将 描述 如 何 避 免 这 种 万 物 
静止 式 的 停顿 )。 

在 最 坏 的 情况 下 ， 引 用 计数 域 的 大 小 几乎 要 与 指针 域 的 大 小 相等 ， 但 在 大 部 分 应 用 程序 
中 ， 大 多 数 对 象 的 被 引用 次 数 通常 较 少 。 引 用 计数 通常 可 以 复 用 对 象 现 有 头 部 字 中 的 几 个 位 
(例如 与 对 象 哈 希 或 者 锁 共 用 同一 个 )。 但 极 少数 对 象 被 广泛 引用 的 情况 也 经 常 发 生 。 如 果 使 
用 受 限 域 引用 计数 可 能 需要 后 备 的 追踪 式 回收 器 来 处 理 这 些 对 象 ， 但 如 果 出 现 引用 计数 溢出 
的 对 象 数量 较 少 ， 且 其 生命 周期 较 长 ， 可 以 容许 这 些 对 象 产生 泄漏 。 仅 与 标记 -清扫 回收 进 
行 比较 并 不 能 简单 地 断定 引用 计数 算法 的 空间 开销 更 大 ， 因 为 追踪 式 回收 器 必须 在 堆 中 保留 
一 定 的 空间 来 避免 性 能 上 的 颠 艇 ， 如 果 要 求 堆 空间 比 最 大 存活 对 象 总 大 小 还 要 大 20%， 则 意 
味 着 至 少 10% 的 空间 将 被 浪费 ， 这 一 比率 很 可 能 与 引用 计数 算法 的 空间 开销 相近 (取决 于 
对 象 的 平均 大 小 )。 

省 略 某 些 引用 计数 操作 可 以 降低 引用 计数 算法 在 吞吐 量 方面 的 开销 。 延 迟 引 用 计数 会 忽 
略 赋值 器 对 局 部 变量 的 操作 ， 这 将 导致 直接 从 根 可 达 的 对 象 的 引用 计数 比 其 真实 值 要 小 ， 进 
而 损失 了 回收 的 时 效 性 (因为 引用 计数 为 零 不 再 意味 着 对 象 就 是 垃圾 )。 合 并 引用 计数 仅 关 
注 对 象 在 某 一 时 段 开 始 和 结束 时 的 状态 ， 同 时 忽略 时 段 内 的 指针 操作 。 从 某 种 意义 上 讲 ， 这 
一 方法 是 将 开发 者 手动 优化 临时 性 引用 计数 变更 的 工作 自动 化 (例如 用 于 遍历 链表 的 迭代 
器 )。 然 而 ， 使 用 延迟 引用 计数 和 合并 引用 计数 的 一 个 后 果 是 ， 为 了 修正 引用 计数 ， 它 们 再 
次 引入 了 万 物 静 止 式 的 停顿 。 

使 用 延迟 引用 计数 和 合并 引用 计数 不 仅 可 以 省 略 某 些 引 用 计数 操作 ， 而 且 可 以 减少 其 他 
操作 的 同步 开销 。 延 迟 引 用 计数 简单 地 忽略 了 针对 局 部 变量 的 引用 计数 操作 ; 在 合并 引用 计 
数 中 ， 竞 争 是 良性 的 ， 因 此 无 需 进 行 同步 ， 最 差 的 情况 是 可 能 将 相同 的 值 写 人 两 个 不 同 线程 
的 日 志 中 。 然 而 ， 这 两 种 策略 都 引入 了 额外 的 空间 开销 ， 例 如 零 引 用 表 以 及 更 新 日 志 。 

这 些 高 级 引用 计数 方案 的 另 一 个 优势 在 于 它们 可 以 处 理 规 模 较 大 的 堆 ， 其 处 理 开 销 仅 与 
指针 操作 的 次 数 相 关 ， 而 与 存活 对 象 的 大 小 无 关 。 我 们 将 在 第 10 章 看 到 ， 追 踪 式 回收 器 与 
引用 计数 算法 可 以 组 合成 混合 式 回收 器 ， 其 中 前 者 将 用 于 处 理 短命 的 、 操 作 频 繁 的 对 象 ， 后 
者 将 用 于 处 理 长 寿 的、 更 加 稳定 的 对 象 。 

第 6 章 将 对 已 经 介绍 过 的 4 种 回收 算法 进行 比较 ， 它 们 分 别 是 : 标记 一 清扫 、 标 记 一 整 
理 、 复 制式 ， 以 及 引用 计数 。 届 时 我 们 将 对 追踪 式 回 收 以 及 高 级 引用 计数 回收 进行 高 度 抽 
象 ， 并 揭示 它们 在 某 些 方面 的 惊人 相似 性 。 
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前 面 介绍 了 4 种 不 同类 型 的 垃圾 回收 器 ， 本 章 将 对 它们 进行 更 加 详细 的 比较 。 我 们 将 从 
两 个 不 同方 面 进行 考察 : 首先 我 们 会 确立 一 套 标准 来 评价 不 同 回收 算法 在 不 同 场 景 下 的 优势 
与 不 足 ; 然后 再 介绍 Bacon 等 [2004] 对 追踪 式 回 收 算法 和 引用 计数 算法 的 抽象 。 我 们 将 看 
到 ,虽然 不 同 算法 在 表面 上 存在 差异 ,但 它们 在 更 深层 次 上 却 存在 着 显著 的 相似 性 。 

读者 通常 会 问 : 究竟 哪 种 垃圾 回收 器 最 好 ? 但 这 一 问题 并 不 存在 简单 的 答案 。 首 先 需 要 
明确 “最 好 ”的 定义 是 什么 : 是 希望 应 用 程序 的 吞吐 量 最 大 ， 还 是 希望 回收 的 停顿 时 间 最 
短 ? 是 希望 空间 使 用 率 最 高 ， 还 是 希望 对 这 些 参 数 进行 综合 考虑 以 达到 整体 上 的 平衡 ? 其 
次 ， 在 不 同 的 应 用 程序 中 ， 即 使 对 于 同一 个 评价 标准 ， 不 同 回收 器 的 排名 也 可 能 有 所 不 同 。 
例如 ，Fitzgerald 和 Tarditi[2000] 通过 对 20 种 Java 基准 测试 程序 和 6 种 不 同 的 回收 器 进行 
研究 发 现 ， 对 于 任意 一 种 回收 器 ， 都 存在 另 一 种 更 加 合适 的 回收 器 可 以 将 某 个 特定 基准 测试 
程序 的 执行 速度 提升 至 少 13%。 对 于 不 同 大 小 的 可 用 堆 ， 回 收 器 的 性 能 也 各 不 相同 。 如 果 可 
用 堆 空 间 更 大 ， 则 程序 通常 执行 得 更 快 ， 但 如 果 可 用 堆 空 间 过 大 ， 则 相关 对 象 在 空间 上 更 加 
分 散 ， 程 序 的 空间 局 部 性 更 低 ， 进 而 可 能 降低 程序 的 性 能 。 这 些 因素 都 使 得 问题 的 分 析 更 加 
复杂 。 


6.1 Fite 


对 于 许多 用 户 而 言 ， 他 们 关注 的 首要 问题 可 能 是 程序 的 整体 吞吐 量 ， 这 同时 也 可 能 是 批 
处 理 程序 或 者 网 络 服务 器 的 主要 评价 指标 。 对 于 前 者 而 言 ， 短 暂 的 停顿 可 以 接受 ， 而 对 于 后 
者 ， 这 种 停顿 往往 会 被 系统 或 者 网 络 的 延迟 所 掩盖 。 尽 量 快 地 执行 垃圾 回收 固然 重要 ， 但 更 
快 的 回收 速度 并 不 意味 着 程序 整体 执行 速度 也 会 更 快 。 在 一 个 配置 良好 的 系统 中 ， 垃 圾 回收 
应 当 只 占用 整体 执行 时 间 的 一 小 部 分 ， 如 果 更 快 的 回收 器 会 给 赋值 器 操作 带 来 更 多 的 额外 开 
销 ， 则 很 有 可 能 导致 应 用 程序 的 整体 执行 时 间 变 长 。 赋 值 器 的 开销 可 以 是 显 式 的 ， 例 如 引用 
计数 算法 中 的 读 写 屏障 ， 但 某 些 隐 式 因素 也 可 能 影响 赋值 器 的 性 能 ， 例 如 ， 如 果 复 制式 回收 
器 重 排列 对 象 的 方式 不 恰当 ， 则 可 能 降低 赋值 器 的 高 速 缓存 友 好 性 ; 再 如 ,减少 引用 计数 的 
操作 很 可 能 需要 访问 一 个 较 “ 冷 ”的 对 象 。 在 任何 情况 下 ， 避 免 进 行 同步 操作 都 十 分 重要 ， 
但 引用 计数 的 变更 必须 使 用 同步 操作 以 避免 更 新 操作 的 “丢失 ”" ,延迟 引用 计数 和 合并 引用 
计数 则 可 以 消除 这 些 同步 操作 的 开销 。 

有 人 会 使 用 算法 复杂 度 来 比较 不 同 的 回收 算法 。 标 记 一 清扫 回收 需要 考虑 追踪 (标记) 
和 清扫 两 个 阶段 的 开销 ， 而 复制 式 回收 器 的 复杂 度 则 仅 取 决 于 追踪 阶段 。 追 踪 过 程 只 需要 访 
问 所 有 存活 对 象 ， 而 清扫 过 程 则 需要 访问 每 个 对 象 (包括 存活 对 象 以 及 死亡 对 象 )。 如 果 仅 
据 此 进行 比较 ， 很 容易 得 出 标记 - 清扫 回收 的 开销 大 于 复制 式 回收 这 一 错误 结论 。 同 样 是 进 
行 追踪 ， 标 记 一 清扫 算法 访问 一 个 对 象 所 需 的 指令 远 比 复制 式 回 收 算法 要 少 。 局 部 性 也 对 回 
收 性 能 有 很 大 影响 。 我 们 在 2.6 节 看 到 ， 使 用 预 取 技 术 可 以 弥补 高 速 缓存 不 命中 问题 ， 但 对 
于 复制 式 回收 器 而 言 ， 是 否 可 以 在 保留 深度 优先 复制 所 带 来 的 好 处 的 前 提 下 使 用 预 取 技术 ， 
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却 没有 一 个 完美 的 答案 。 在 所 有 的 追踪 式 回收 器 中 ， 指 针 追 踪 的 开销 通常 起 决定 性 作用 。 另 
外 ， 当 堆 中 存活 对 象 的 比例 较 小 时 ， 复 制式 回收 器 表现 最 佳 ， 但 如 果 在 标记 一 清扫 算法 中 使 
用 懒惰 清扫 ， 也 可 以 在 这 一 场景 下 达到 最 佳 性 能 。 


6.2 ”停顿 时 间 


许多 用 户 关注 的 另 一 个 问题 是 ， 垃 圾 回收 会 给 程序 的 执行 造成 停顿 。 尽 量 缩短 停 顿时 间 
不 仅 对 交互 式 程序 十 分 重要 ， 而 且 是 事务 型 服务 处 理 程序 的 一 个 关键 要 求 ， 否 则 将 导致 事 
务 的 积压 。 目 前 为 止 我 们 介绍 过 的 追踪 式 回 收 器 都 会 引入 万 物 静 止 式 的 停顿 ， 即 回收 器 需要 
将 赋值 器 线程 挂 起 直到 回收 完成 。 在 一 些 较 早 的 系统 中 ， 垃 圾 回收 所 造成 的 停顿 时 间 相 当 惊 
人 ， 即 使 在 现代 硬件 条 件 下 ， 如 果 使 用 万 物 静 止 式 回收 ， 大 多 数 程序 的 停顿 时 间 也 经 常会 
超过 1s。 引 用 计数 算法 的 优势 在 于 它 可 以 将 回收 开销 分 摊 在 程序 的 执行 过 程 中 ， 从 而 避免 
万 物 静 止 式 的 停顿 ， 但 正如 上 一 章 所 提 到 的 ， 在 高 性 能 引用 计数 系统 中 ， 这 一 优势 也 并 非 绝 
Xt: 当 删 除 指向 较 大 数据 结构 的 最 后 一 个 引用 时 ， 可 能 会 引发 递归 性 的 引用 计数 修改 以 及 对 
象 释放 操作 。 所 幸 的 是 ， 对 垃圾 对 象 进行 引用 计数 变更 操作 并 不 会 存在 多 线程 竞争 问题 ， 尽 
管 这 仍 有 可 能 造成 对 象 所 在 高 速 缓存 行 的 冲突 。 更 致命 的 问题 是 ， 延 迟 引 用 计数 和 合并 引用 
计数 这 两 种 最 能 有 效 提升 引用 计数 性 能 的 策略 都 需要 通过 万 物 静 止 式 的 停顿 来 回收 零 引 用 
表 中 的 对 象 。 我 们 将 在 6.6 节 看 到 ， 尽 管 高 性 能 引用 计数 与 追踪 式 回收 在 表面 上 存在 很 大 差 
异 ， 但 它们 在 本 质 上 并 无 较 大 区 别 。 


6.3 内存 空间 


如 果 物 理 内 存 较 小 ， 或 者 应 用 程序 非常 庞大 ， 再 或 者 应 用 程序 需要 较 好 的 扩展 能 力 ， 则 
内 存 的 使 用 量 便 显得 十 分 重要 。 所 有 的 垃圾 回收 算法 都 会 引入 空间 上 的 开销 ， 这 通常 是 由 
多 方面 因素 决定 的 。 某 些 算 法 可 能 需要 在 每 个 对 象 上 占用 一 定 的 空间 ， 例 如 引用 计数 域 。 半 
区 复制 式 回收 器 需要 额外 的 堆 空 间 来 作为 复制 保留 区 ， 且 为 了 确保 回收 的 安全 性 ， 复 制 保留 
区 应 当 能 够 容纳 当前 所 有 已 分 配 的 对 象 ， 除 非 存 在 后 备 的 处 理 机 制 (例如 标记 一 整理 算法 )。 
非 移 动 式 回收 器 会 面临 内 存 碎片 问题 ， 这 将 导致 堆 的 可 用 率 降低 。 回 收 所 需 的 元 数据 空间 虽 
然 不 属于 堆 ， 但 是 也 不 能 忽略 。 追 踪 式 回收 器 可 能 会 需要 标记 栈 、 标 记 位 图 或 者 其 他 更 加 复 
杂 的 数据 结构 。 包 括 显 式 管理 器 在 内 的 所 有 非 整 理 式 回 收 器 都 需要 一 定 的 空间 来 维持 其 自身 
所 需 的 数据 结构 ， 例 如 分 区 空闲 链表 等 。 最 后 ， 对 于 追踪 式 回收 或 者 延迟 引用 计数 回收 而 
言 ， 如 果 要 避免 因 频 繁 回收 而 导致 的 性 能 颠 壬 ， 则 必须 在 堆 中 为 垃圾 对 象 保留 一 定 的 空间 。 
在 垃圾 回收 系统 中 ， 保 留 空 间 的 大 小 通常 会 达到 应 用 程序 所 需 最 小 内 存量 的 30% 一 200%, 
甚至 是 300%。 许 多 系统 在 必要 时 可 以 进行 堆 扩展 ， 以 达到 避免 性 能 颠 艇 等 目的 。Herts 和 
Berger[2005] 指出 ， 使 用 垃圾 回收 器 的 应 用 程序 时 如 果 要 达到 与 显 式 管理 堆 相 同 的 性 能 ， 其 
所 需 的 内 存 空间 通常 是 后 者 的 3 一 6 倍 。 

当 某 一 对 象 与 存活 对 象 图 不 再 关联 时 ， 简 单 的 引用 计数 算法 可 以 立即 将 其 回收 。 除 了 可 
以 避免 堆 中 垃圾 的 堆积 ， 这 一 特性 还 具有 其 他 一 些 潜在 优势 : 被 释放 的 空间 通常 会 在 很 短 
时 间 内 重新 得 到 分 配 ， 从 而 有 助 于 高 速 缓 存 性 能 的 提升 ; 在 某 些 场景 下 ， 编 译 器 能 够 探测 
出 某 一 对 象 成 为 垃圾 的 时 刻 ， 然 后 可 以 立即 将 其 复 用 ， 从 而 无 需 再 将 其 交 给 内 存 管理 器 去 
回收 。 

理想 的 垃圾 回收 器 不 仅 应 当 满 足 完整 性 要 求 ( 即 所 有 死亡 对 象 最 终 都 会 被 回收 )， 还 应 
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当 达 到 回收 的 及 时 性 〈 即 在 每 个 回收 周期 内 都 可 以 将 所 有 死亡 对 象 回 收 )。 前 面 几 章 介绍 的 
基本 的 追踪 式 回收 器 都 可 以 达到 这 一 要 求 ， 但 其 代价 是 每 次 回收 过 程 都 需要 扫描 所 有 存活 对 
象 。 然 而 ， 基 于 性 能 方面 的 考虑 ， 现 代 高 性 能 回收 顺 通 常 都 会 放弃 回收 的 及 时 性 ， 即 人 允许 部 
分 垃圾 从 当前 回收 周期 “漂浮 ”到 下 一 个 回收 周期 。 此 外 ， 引 用 计数 算法 还 面临 着 回收 完整 
性 问题 ， 即 如 果 不 借助 于 追踪 方法 ， 环 状 垃圾 便 无 法 得 到 回收 。 


6.4 回收 器 的 实现 


正确 地 实现 垃圾 回收 算法 并 非 易 事 ， 而 正确 地 实现 并 发 回收 算法 则 更 是 难 上 加 难 。 回 收 
器 和 编译 器 之 间 的 接口 十 分 关键 。 回 收 器 所 产生 的 错误 很 可 能 在 很 久之 后 才 会 表现 出 来 (或 
许 在 多 个 回收 周期 之 后 )， 而 其 后 果 则 通常 是 赋值 器 尝试 去 访问 一 个 非法 引用 ， 因 此 回收 器 
的 鲁 棒 性 (robustness) 与 其 速度 同样 重要 。Blackburn 等 [2004a] 指出 ， 回 收 器 是 关乎 性 能 
的 关键 系统 组 件 ， 可 借助 于 模块 化 和 组 件 化 等 优秀 软件 工程 实践 来 指导 回收 器 的 实现 ， 从 而 
确保 代码 具有 较 高 的 可 维护 性 。 

简单 的 追踪 式 回 收 器 的 优点 之 一 是 回收 器 和 赋值 器 之 间 的 接口 比较 简单 ， 即 只 有 当 分 配 
器 耗 尽 内 存 时 才 会 唤起 回收 器 。 实 现 这 一 接口 的 主要 复杂 点 在 于 如 何 判断 回收 的 根 ， 包 括 全 
局 变量 、 寄 存 器 和 栈 槽 中 包含 的 引用 等 ， 第 11 章 将 详细 讨论 这 一 点 。 需 要 强调 的 是 ， 复 制 
式 与 整理 式 回收 器 的 设计 要 比 非 移动 式 回收 器 复杂 得 多 。 移 动 式 回收 器 需要 精确 地 找 出 每 一 
个 根 并 更 新 指向 某 一 对 象 的 所 有 引用 ， 而 非 移动 式 回 收 器 则 只 需要 找到 指向 存活 对 象 的 至 少 
一 个 引用 ， 也 不 需要 改变 指针 的 值 。 所 谓 的 保守 式 回收 器 ( conservative collector) [Boehm 
and Weiser, 1988] 可 以 在 没有 精确 的 赋值 器 栈 以 及 对 象 布局 信息 的 条 件 下 进行 垃圾 回收 ， 它 
们 使 用 智能 (但 安全 、 保 守 ) 的 猜测 来 确定 一 个 值 是 否 为 指针 。 由 于 非 移动 式 回收 器 不 会 更 
新 引用 ， 因 此 即使 回收 器 错误 地 将 某 个 值 识 别 为 引用 ， 也 不 会 对 该 值 进行 修改 ， 唯 一 的 风险 
在 于 可 能 导致 空间 的 泄漏 。 关 于 保守 式 垃 圾 回收 器 的 更 详细 讨论 可 以 参考 Jones[1996, 第 9 
章 第 10 章 ]。 

引用 计数 算法 需要 与 赋值 器 紧 耦 合 ， 这 既是 其 优点 也 是 其 缺点 。 其 优点 在 于 ， 引 用 计数 
能 够 以 库 的 形式 实现 ， 因 而 开发 者 可 以 自行 决定 哪些 对 象 需要 由 引用 计数 进行 管理 ， 而 哪些 
对 象 需要 手动 管理 。 而 缺点 在 于 ， 这 种 耦合 关系 给 赋值 器 带 来 了 处 理 上 的 开销 ， 而 为 了 确保 
引用 计数 操作 的 正确 性 ， 这 些 操作 又 至 关 重 要 。 

对 于 任何 一 个 使 用 动态 内 存 分 配 的 现代 编程 语言 ， 内 存 管理 器 都 对 性 能 有 着 至 关 重 要 的 
影响 。 其 关键 操作 通常 包括 内 存 分 配 、 赋 值 器 更 新 操作 (包括 读 写 屏障 )、 垃 圾 回收 器 的 内 
部 循环 等 。 这 些 关 键 操作 的 实现 代码 应 当 内 联 (inline)， 但 同时 也 要 小 心地 避免 代码 过 度 膨 
胀 。 如 果 处 理 器 的 指令 高 速 缓存 足够 大 ， 且 代码 膨胀 得 足够 小 (对 于 高 速 缓存 较 小 的 老式 系 
统 ，Steenkiste[1989] 建议 小 于 30%)， 则 代码 膨胀 对 性 能 的 影响 可 以 忽略 不 计 。 多 数 情况 下 
所 执行 的 代码 序列 ( 即 “ 快 速 路 径 ”) 应 当 尽量 短小 以 便于 内 联 ， 而 对 于 少数 情况 下 才 执 行 
的 “ 慢 速 路 径 "， 则 可 以 用 过 程 调用 的 方式 实现 [Blackburn and McKinley，2002]。 另 外 ， 编 
译 器 的 输出 结果 也 至 关 重 要 ， 因 此 有 必要 对 其 汇编 代码 进行 检查 。 高 速 缓存 相关 行为 对 性 能 
也 有 重要 影响 。 


6.5 自 适应 系统 
商业 系统 通常 允许 用 户 自主 选择 垃圾 回收 器 ， 且 每 种 回收 器 都 具有 一 系列 可 调 参数 ， 但 
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如 何 进行 选择 和 调整 则 通常 让 用 户 困惑 。 更 加 复杂 的 问题 在 于 ， 每 种 回收 器 的 各 个 参数 之 
间 并 非 相 互 独立 。 一 些 研 究 人 员 建 议 ， 系 统 应 当 能 够 根据 所 服务 的 应 用 程序 所 在 的 环境 进 
行 自 适 应 调整 。Soman 等 [2004] 所 开发 的 Java 运行 时 系统 能 够 在 运行 时 根据 可 用 堆 的 大 小 
动态 地 切换 回收 器 的 类 型 ， 切 换 的 依据 有 二 : 一 是 使 用 离线 分 析 的 方法 确定 在 程序 当前 堆 
大 小 情况 下 最 佳 的 分 配器 ; 二 是 根据 程序 当前 所 用 空间 占 最 大 可 用 空间 的 比例 来 切换 回收 
ft. Singer 等 [2007a] 使 用 机 器 学 习 技 术 对 程序 的 某 些 静态 特征 进行 分 析 ， 并 据 此 预测 最 适 
用 于 该 程序 的 回收 器 类 型 ( 仅 需 要 一 次 实验 运行 )。Sun 的 Ergonomic 调节 系统 2 可 以 通过 对 
HotSpot 回收 器 性 能 的 调整 来 控制 堆 中 可 用 空间 的 大 小 ， 进 而 达到 用 户 所 需 的 吞吐 量 以 及 最 
大 停顿 时 间 要 求 。 

对 于 开发 者 而 言 ， 我 们 能 够 提供 的 最 好 的 或 许 也 是 唯一 的 建议 是 ， 掌 控 自 己 所 开发 应 用 
程序 的 行为 以 及 所 用 对 象 的 空间 大 小 、 生 命 周期 分 布 特征 ， 然 后 据 此 使 用 不 同 的 回收 器 进行 
实验 ， 并 最 终 选 用 最 合适 的 一 种 。 但 是 ， 实 验 通常 需要 基于 真实 的 数据 集 才能 保证 结果 的 准 
确 性 ， 人 造 的 “玩具 ” 般 的 基准 测试 程序 都 可 能 会 起 反 向 误导 作用 。 


6.6 统一 垃圾 回收 理论 


前 面 的 章节 介绍 了 两 种 不 同类 型 的 垃圾 回收 策略 : 一 种 是 直接 回收 ， 即 引用 计数 ; 另 一 
种 是 间接 回收 ， 即 追踪 式 回 收 。Bacon 等 [2004] 发 现 这 两 种 回收 策略 之 间 存 在 深层 次 的 相似 
性 ， 并 提出 了 统一 垃圾 回收 理论 这 一 抽象 框架 。 我 们 可 以 据 此 精确 地 展示 不 同 回收 器 之 间 的 
相同 与 差异 。 


6.6.1 垃圾 回收 的 抽象 


在 接 下 来 的 抽象 框架 中 ， 我们 仅 使 用 简单 的 抽象 数据 结构 ， 具 体 的 实现 方式 可 以 有 所 不 
同 。 垃 圾 回收 可 以 表示 为 一 种 定点 计算 ( fixed-point computation)， 即 计算 某 一 节点 n 的 引 
用 计数 p(n)。 对 象 的 有 效 引 用 来 源 包括 根 集合 以 及 其 他 引用 计数 非 零 的 节点 ， 即 : 


Vref ENodes : 
p(ref) = |{fld€Roots : *fld=ref}| (6.1) 


+ |{fld€Pointers(n) : n€Nodes A p(n)>0 A xfld= ref}| 
从 引用 计数 角度 考虑 ， 引 用 计数 非 零 的 对 象 应 当 保 留 ， 而 剩余 的 对 象 则 应 被 回收 。 引 用 
计数 的 值 不 必 十 分 精确 ， 但 至 少 应 当 是 其 真实 值 的 一 个 安全 近似 。 在 抽象 的 垃圾 回收 算法 
中 ， 对 引用 计数 的 计算 需要 用 到 一 个 待 处 理 对 象 工作 列表 历 ， 当 万 为 空 时 算法 结束 。 在 接 
下 来 的 描述 中 ， 丈 是 一 个 多 集合 (multiset)， 因 为 同一 个 引用 可 能 会 在 不 同 的 操作 中 多 次 被 
添加 到 其 中 。 


6.6.2 ”追踪 式 垃圾 回收 


统一 垃圾 回收 理论 将 追踪 式 垃圾 回收 算法 抽象 成 一 种 引用 计数 形式 。 算 法 6.1 展示 了 追 
踪 式 垃圾 回收 过 程 的 抽象 : 追踪 过 程 从 所 有 引用 计数 非 零 的 节点 出 发 ; 每 个 回收 周期 结束 后 ， 
sweepTracing 方法 会 将 所 有 节点 的 引用 计数 清 零 ，New 方法 也 将 新 创建 对 象 的 引用 计数 置 为 
a; 在 collectTracing 方法 中 ,算法 先 调用 rootstracing 方法 构建 初始 的 工作 列表 W, 9 
后 将 其 传递 给 scanTracing 方法 。 


© http://java.sun.com/docs/hotspot/gc5.0/ergo5.html 
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算法 6.1 追踪 式 垃圾 回收 抽象 


atomic collectTracing(): 
rootsTracing(W) 
scanTracing(W) 
sweepTracing() 


scanTracing(W): 
while not isEmpty(W) 
src + remove(W) 


er 


p(src) + p(src) 十 1 /* src 从 白色 变 成 黑色 */ 
10 if p(src) = 1 /* node 为 白色 */ 
n for each fld in Pointers(src) 
2 ref + *fld 
13 if ref # null 
14 WWi+i [ref] 
15 
16 sweepTracing(): 
17 for each node in Nodes 
18 if p(node) = 0 /* node 为 黑色 */ 
19 free(node) 
20 else /* 重新 将 node 设置 为 白色 */ 
a p(node) + 0 /* ref 为 白色 */ 
2 
» New(): 
a ref + allocate() 
25 if ref = null 
26 collectTracing() 
2 ref + allocate() 
28 if ref = null 
29 error "Out of memory" 
30 p(ref) + 0 /* node 为 黑色 */ 
31 return ref 
32 
æ rootsTracing(R): 
34 for each fld in Roots 
35 ref + *fld 
36 if ref # null 
37 R + R + [ref] 


正如 我 们 所 预期 的 那样 ， 回 收 器 会 对 整个 对 象 图 进行 追踪 ， 以 发 现 所 有 从 根 节点 可 达 
的 对 象 : scanTracing 方法 对 工作 列表 中 的 每 个 节点 进行 追踪 ， 并 在 追踪 过 程 中 将 发 现 的 每 
个 节点 的 引用 计数 加 1， 这 样 最 终 便 可 完成 所 有 节点 引用 计数 的 重建 (回想 我 们 在 5.6 节 所 
描述 过 的 ， 追 踪 式 回收 器 可 以 用 于 修正 粘性 引用 计数 )。 如 果 某 一 可 达 节 点 src 首次 被 发 现 
( 即 从 0 变 为 1 时 ， 见 算法 6.1 中 的 第 10 行 )， 回 收 器 将 对 其 各 指针 域 进行 扫描 ， 同 时 将 它们 
所 指向 的 子 节点 加 入 到 工作 列表 W F, MARR sre 所 有 出 边 的 递归 扫描 ? 。 

while 循环 的 结束 意味 着 扫描 过 程 的 完成 ， 此 时 所 有 存活 节点 都 已 经 被 发 现 ， 每 个 存活 
对 象 的 非 零 引 用 计数 等 于 该 节点 的 人 边 的 数量 。 接 下 来 ，sweeprracing 方法 释放 所 有 的 无 用 
节点 ， 同 时 将 所 有 对 象 的 引用 计数 清 零 ， 以 便 进行 下 一 次 回收 。 需 要 注意 的 是 ， 实 际 应 用 中 
的 追踪 式 回收 器 可 以 仅 用 一 个 位 来 表示 对 象 的 引用 计数 ， 即 通过 标记 位 来 记录 对 象 是 曾 否 被 
访问 过 ， 此 时 的 标记 位 就 相当 于 是 其 引用 计数 的 粗略 近似 。 

O 另外 ,也 可 以 将 对 象 添加 到 日 志 中 ， 虽然 这 样 会 占用 更 多 的 空间 ,但 是 可 以 提升 追踪 过 程 的 缓存 性 能 (参见 

2.6 节 )。 此 处 不 采用 该 方案 的 原因 是 它 与 算法 6.2 中 的 引用 计数 抽象 具有 一 定 的 差别 。 
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AÉ BRIR PIARA AER ESE (6.1) 的 最 小 定点 解 ( least fixed-point solution)， 即 每 个 
对 象 的 引用 计数 值 都 是 可 以 满足 等 式 的 最 小 值 。 

我 们 可 以 使 用 2.2 节 介 绍 的 三 色 抽象 来 对 垃圾 回收 算法 进行 诠释 。 在 算法 6.1 中 ， 引 用 计 
数 为 零 的 对 象 为 白色 ， 而 引用 计数 非 零 的 对 象 则 为 黑色 。 对 象 颜色 从 白色 到 灰色 再 到 黑色 的 
变化 过 程 代表 着 对 象 从 初次 被 发 现 到 完成 扫描 的 整个 过 程 。 因 此 ， 抽 象 追踪 算法 也 可 以 看 作 
是 将 全 部 节点 划分 为 两 个 集合 的 过 程 ， 黑 色 对 象 集合 代表 可 达 对 象 ， 白 色 对 象 集合 代表 垃圾 。 


6.6.3 引用 计数 垃圾 回收 


为 展示 引用 计数 垃圾 回收 与 追踪 式 回收 的 相似 之 处 ， 在 算法 6.2 中 所 展示 的 抽象 引用 计 
数 垃 圾 回收 算法 中 ， 由 赋值 器 执行 的 inc 和 dec 方法 会 将 引用 计数 操作 写 人 缓冲 区 ， 而 不 是 
立即 执行 。 对 于 多 线程 应 用 程序 而 言 ， 对 引用 计数 变更 操作 进行 缓冲 的 策略 十 分 有 用 ， 我 们 
将 在 第 18 章 进行 更 深入 的 介绍 。 此 处 的 缓冲 操作 与 5.4 节 所 介绍 的 合并 引用 计数 算法 存在 
相似 之 处 。 在 算法 6.2 H, 具体 的 垃圾 回收 工作 是 在 collectcounting 方法 中 完成 的 ， 其 中 
applyIncrements 方法 执行 被 延迟 的 引用 计数 的 增加 操作 (I), scancounting 方法 执行 被 延 
述 的 引用 计数 的 减少 操作 (D)o 

当 赋 值 器 使 用 write 方法 执行 赋值 操作 时 ， 即 将 新 的 目标 引用 ast 写 人 域 sreli] 中 
时 ， 对 新 目标 对 象 引 用 计数 的 增加 (Bl inc(ast)) 以 及 对 原 目 标 对 象 引用 计数 的 减少 ( 即 
dec(src[il) ) 都 会 写 人 缓冲 区 。 

在 回收 开始 阶段 ， 回 收 器 首先 执行 缓冲 区 中 所 有 的 引用 计数 增加 操作 ， 此 时 对 象 的 引用 
计数 可 能 比 其 真实 值 要 大 。 接 下 来 ，scancounting 方法 将 会 对 工作 列表 进行 遍历 ， 并 将 其 遇 
到 的 每 个 对 象 的 引用 计数 减 123。 如 果 某 个 对 象 的 引用 计数 在 这 个 阶段 降 为 零 ， 说 明 该 对 象 是 
垃圾 ， 同 时 其 子 节点 也 会 被 加 入 到 工作 列表 。 最 后 ，sweepcounting 方法 会 释放 所 有 的 垃圾 
PARo 

追踪 式 算 法 与 引用 计数 算法 整体 相同 ， 它 们 之 间 仅 存在 一 些 细微 的 差别 。 两 种 算法 均 
包含 扫描 过 程 : 追踪 式 回 收 的 scantracing 方法 使 用 引用 计数 增加 操作 ， 而 引用 计数 算法 的 
scanCounting 方法 则 使 用 引用 计数 减少 操作 。 两 种 算法 都 需要 对 零 引 用 对 象 进 行 递归 扫描 ， 
都 需要 通过 清扫 过 程 来 释放 垃圾 节点 所 占用 的 空间 。 算 法 6.1 和 算法 6.2 中 前 31 行 的 大 致 框 
架 基 本 类 似 。 另 外 ， 延 迟 引 用 计数 策略 (将 根 对 象 引 用 计数 操作 延迟 的 策略 ) 也 符合 这 一 抽 
象 框架 ( 见 算 法 6.3 )。 

前 面 的 章节 曾经 提 到 ， 当 对 象 图 中 存在 环 时 ， 引 用 计数 的 计算 会 遇 到 问题 。 图 6.1 展 
示 了 一 个 简单 的 对 象 图 ， 其 中 的 两 个 对 象 构成 一 个 独立 的 环 。 如 果 对 象 A 的 引用 计数 为 零 ， 
则 对 象 B 的 引用 计数 也 为 零 (因为 只 有 引用 计数 
非 零 的 对 象 才 会 对 其 所 引用 对 象 的 引用 计数 造成 e 
影响 )。 但 由 于 对 象 A 和 对 象 B 的 引用 计数 相互 依 Ee poe | 
赖 ， 因 而 这 里 便 产 生 了 一 个 鸡 生 蛋 还 是 蛋 生 鸡 的 问 
题 : 我 们 也 可 以 将 对 象 A 的 引用 计数 预 设 为 1， 从 图 51 DARA 
而 其 所 引用 的 对 象 B 的 引用 计数 也 为 1。 

由 于 可 能 出 现 多 种 不 同 的 情况 ， 所 以 通用 的 定点 计算 表达 式 可 能 存在 多 个 不 同 的 解 。 对 
于 图 6.1 所 示 的 情况 ，Nodes = {A, B}, Roots = {}， 则 定点 运算 ( 见 式 6.1) 存在 两 个 解 : 


O 工作 列表 的 初始 值 即 为 引用 计数 减少 操作 被 延迟 的 对 象 集合 。 一 一 译 者 注 
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最 小 定点 解 p (A)= p (B)=0 和 最 大 定点 解 p (A)= p (B)=1。 追 踪 式 回收 器 的 计算 结果 是 最 
小 定点 解 ， 而 引用 计数 回收 器 的 计算 结果 则 是 最 大 定点 解 ， 因 而 其 无 法 〈 仅 依靠 引用 计数 本 
身 ) 回收 环 状 垃圾 。 仅 从 环 状 垃圾 可 达 的 对 象 集 合 是 这 两 个 解 的 唯一 不 同 之 处 。5.5 节 曾 介 
绍 过 ， 在 引用 计数 算法 中 可 以 利用 局 部 追踪 来 回收 环 状 垃圾 ， 这 一 过 程 本 质 上 就 是 从 最 大 定 
点 解 出 发 ， 不 断 缩小 待 回 收 对 象 的 集合 ， 最 终 得 到 最 小 定点 解 的 过 程 。 


算法 6.2 抽象 引用 计数 垃圾 回收 


atomic collectCounting(I,D): 
applyIncrements(I) 
scanCounting(D) 
sweepCounting() 


scanCounting(W): 
while not isEmpty(W) 
src + remove(W) 
p(src) + p(src)—1 


© eu nn he UN” 


10 if p(src) = 0 

u for each fld in Pointers(src) 
12 ref + xfld 

B if ref # null 

“ W + W + [ref] 


% sweepCounting(): 
for each node in Nodes 
if p(node) = 0 
free(node) 


New(): 
ref + allocate() 
if ref = null 
collectCounting(I,D) 
ref + allocate() 
if ref = null 
error "Out of memory" 
p(ref) + 0 
return ref 


dec(ref): 
if ref Æ null 
D + D + [ref] 


inc(ref): 
if ref # null 
I + I + [ref] 


atomic Write(src, i, dst): 
inc(dst) 
dec(src[i]) 
sre[i] + dst 


applyIncrements([): 
while not isEmpty(/) 
ref + remove(!) 
p(ref) + p(ref)+1 
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算法 6.3 ”抽象 延迟 引用 计数 垃圾 回收 


atomic collectDrc(I,D): 
rootsTracing(I) 
applyIncrements(I) 
scanCount ing(D) 
sweepCounting() 
rootsTracing(D) 
applyDecrements(D) 


New(): 
ref + allocate() 
if ref = null 
collectDrc(I,D) 
ref + allocate() 
if ref = null 
error "Out of memory" 
p(ref) + 0 
return ref 


atomic Write(src, i, dst): 
if src # Roots 
inc(dst) 
dec(src[i]) 
src[i] + dst 


applyDecrements(D): 
while not isEmpty(D) 
ref + remove(D) 
p(ref) + p(ref)—1 
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内 存 分 配 





内 存 管 理 器 需要 处 理 的 问题 包括 3 个 方面 : 四 如 何 分 配 内 存 ; 四 如 何 确 定 存 活 数据 ; 
@@ 如 何 回收 死亡 对 象 所 占用 的 空间 ， 以 便 在 程序 的 后 续 执 行 过 程 中 重新 将 其 分 配 出 去 。 对 于 
这 3 个 问题 ， 垃 圾 回收 系统 和 显 式 内 存 管理 器 有 着 不 同 的 处 理 策略 ， 且 不 同 回收 器 所 使 用 的 
算法 也 各 不 相同 。 但 不 论 如 何 ， 内 存 的 分 配 和 回收 过 程 都 是 紧密 相关 的 ， 使 用 任何 一 种 分 配 
策略 都 必须 要 考虑 如 何 回收 其 所 分 配 的 内 存 。 
20 世纪 50 年 代 以 来 ， 研 究 者 们 针对 程序 控制 下 的 动态 内 存 分 配 和 释放 问题 提出 了 多 种 
解决 方案 ， 其 中 大 多 数 都 与 垃圾 回收 系统 有 着 潜在 的 相关 性 。 然 而 ， 自 动 内 存 管理 和 显 式 内 
存 管理 在 释放 的 行为 特征 方面 存在 多 种 显著 差别 ， 这 决定 了 它们 在 分 配 策略 的 选择 以 及 性 能 
方面 均 有 所 不 同 。 
e 垃圾 回收 系统 一 次 性 完成 所 有 死亡 对 象 的 回收 ， 而 显 式 内 存 管理 却 通常 一 次 只 回收 
一 个 对 象 。 更 进一步 ， 某 些 垃圾 回收 算法 (如 复制 式 或 整理 式 回 收 ) 可 以 一 次 性 回收 
大 块 连续 空间 。 

© 许多 拥有 垃圾 回收 能 力 的 系统 在 分 配对 象 时 可 以 获取 更 多 的 信息 ， 例 如 竺 分配 对象 
的 大 小 及 其 类 型 。 

o 相对 于 显 式 内 存 管理 ， 垃 圾 回收 可 以 将 开发 者 从 内 存 管理 的 任务 中 解脱 出 来 ， 从 而 
其 编程 模式 会 更 倾向 于 频繁 地 使 用 堆 内 存 分 配 。 

我 们 将 采用 与 Standish[1980] 相同 的 分 类 方法 来 描述 主要 的 几 种 分 配 策略 ， 然 后 再 进 一 
步 讨 论 上 述 几 个 方面 将 如 何 影响 垃圾 回收 系统 的 分 配器 设计 。 

本 章 将 首先 介绍 两 种 基本 的 分 配 策略 : 顺序 分 配 (sequential allocation) 与 空闲 链表 分 配 
( free-list allocation)， 紧 接着 是 基于 多 空闲 链表 (multiple free-list) 的 更 加 复杂 的 分 配 。 然 后 
将 介绍 其 他 一 些 实用 的 注意 事项 。 本 章 最 后 将 对 选择 分 配 策略 时 需要 考虑 的 因素 进行 总 结 。 


7.1 顺序 分 配 


顺序 分 配 使 用 一 个 较 大 的 空闲 内 存 块 。 对 于 n 字 节 的 内 存 分 配 请 求 ， 顺 序 分 配 将 从 空闲 
块 的 一 端 开始 进行 分 配 ， 其 所 需 的 数据 结构 十 分 简单 ， 只 需要 一 个 空闲 指针 (free pointer) 
和 一 个 界限 指针 (limit pointer)。 算 法 7.1 展示 了 顺序 分 配 的 伪 代 码 ， 其 内 存 分 配方 向 是 从 
低地 址 到 高 地 址 ， 图 7.1 对 其 分 配 过 程 进 行 了 描 “ 述 。 由 于 顺序 分 配 策略 总 是 简单 地 移动 空闲 
指针 ， 所 以 俗称 为 阶 跃 指针 分 配 (bump pointer allocation ) 。 在 某 些 场景 下 ， 顺 序 分 配 也 被 
称 为 线性 分 配 (linear allocation)， 因 为 对 于 指定 内 存 块 而 言 ， 其 所 分 配 地 址 的 顺序 总 是 线性 
的 。 关 于 分 配 过 程 中 的 字 节 对 齐 以 及 填充 (padding) 要 求 ， 参 见 7.6 节 和 7.8 节 。 顺 序 分 配 
的 特征 如 下 : 

e 简单 。 

e 高 效 (尽管 Blackburn 等 [2004] 指出 ， 对 于 Java 系统 而 言 ， 顺 序 分 配 和 分 区 适应 空 

闲 链表 分 配 ( 见 7.4 节 ) 之 间 的 性 能 差距 不 超过 1% 的 整体 执行 时 间 )。 
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o 相对 于 空闲 链表 分 配 ， 顺 序 分 配 可 以 给 赋值 器 带 来 更 好 的 高 速 缓存 局 部 性 ， 特 别 是 
对 于 移动 式 回收 器 中 对 象 的 初次 分 配 。 

。 与 空闲 链表 分 配 相 比 ， 顺 序 分 配 不 适用 于 非 移动 式 回收 器 。 如 果 未 被 回收 的 对 象 将 较 
大 的 空闲 内 存 块 分 割 成 许多 较 小 的 内 存 块 ， 则 空闲 内 存 将 会 呈现 出 碎片 化 趋势 ， 即 可 
用 空间 散布 在 众多 可 以 用 于 顺序 分 配 的 小 内 存 块 中 ， 而 不 是 少数 几 个 大 内 存 块 里 。 


算法 7.1 顺序 分 配 


1 sequentialAllocate(n): 
2 result ¢ free 

3 newFree ¢ result +n 

4 if newFree > limit 

5 return null /* AEA */ 
6 
7 


free + newFree 
return result 


字 节 对 齐 填充 





free limit result 4 free limit 


a) 分 配 前 b) 分 配 后 
图 7.1 顺序 分 配 : 调用 sequentialAllocate (n) ， 空 闲 指针 将 增加 对 个 字 节 ， 即 所 需要 的 内 存 大 小 。 
如 果 存 在 字 节 对 齐 要求 ， 则 可 能 要 额外 增加 数 个 填充 字 节 


7.2 空闲 链表 分 配 


空闲 链表 分 配 是 与 顺序 分 配 截然 不 同 的 一 种 内 存 分 配 策略 ， 它 使 用 某 种 数据 结构 来 记录 
空闲 内 存单 元 (free cell) 的 位 置 和 大 小 ， 该 数据 结构 即 空闲 内 存单 元 的 集合 。 严 格 意义 上 
讲 ， 空 闲 内 存单 元 的 组 织 方式 并 非 一 定 是 链表 ， 也 可 以 采用 其 他 形式 ， 但 尽管 如 此 ， 我 们 仍 
使 用 “空闲 链表 ”这 一 传统 名 称 。 我 们 可 以 将 顺序 分 配 看 作 是 空闲 链表 分 配 退 化 后 的 一 种 特 
例 ， 但 在 实际 应 用 中 ， 顺 序 分 配 的 性 质 更 加 特殊 ， 且 实现 更 为 简单 。 

我 们 将 首先 考虑 以 单 链表 方式 组 织 空闲 内 存单 元 的 策略 ， 即 在 需要 内 存 分 配 时 ， 分 配 天 
顺序 检测 每 个 空闲 内 存单 元 ， 依 照 某 种 策略 选择 一 个 并 从 中 进行 分 配 。 其 算法 实现 通常 是 顺 
序 扫描 所 有 空闲 内 存单 元 ， 直 到 发 现 第 一 个 符合 条 件 的 内 存单 元 为 止 ， 因 而 被 称 为 顺序 适应 
分 配 (sequential-fits allocation) 。 典 型 的 顺序 适应 策略 包括 首次 适应 (first-fit)、 循 环 首次 适 
应 3 (next-fit)、 最 佳 适应 (best-fit) [Knuth，1973，2.5 节 ]， 我 们 将 逐一 进行 描述 。 


7.2.1 首次 适应 分 配 


对 于 一 次 内 存 分 配 请 求 ， 首 次 适应 分 配器 将 在 所 发 现 的 第 一 个 满足 分 配 要 求 的 内 存单 元 
中 进行 分 配 。 如 果 该 内 存单 元 的 空间 大 于 所 和 需 的 分 配 空间 ， 则 分 配器 将 分 裂 ( split) 该 内 存 
单元 ， 并 将 剩余 空间 归还 到 空闲 链表 中 。 然 而 ， 如 果 分 裂 后 的 剩余 空间 太 小 以 至 于 无 法 再 用 


O 国内 通用 说 法 。 一 一 译 者 注 
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于 分 配 〈 分 配 算法 及 数据 结构 通常 限制 了 最 小 可 分 配 内 存单 元 的 大 小 )， 则 分 配器 会 避免 分 
裂 。 另 外 ， 如 果 分 裂 后 的 剩余 空间 小 于 某 一 固定 阔 值 或 者 某 一 百分比 ， 分 配器 也 可 避免 分 
裂 。 算 法 7.2 给 出 了 首次 适应 分 配 的 代码 。 需 要 注意 的 是 ， 该 算法 假定 每 个 空闲 内 存单 元 内 
部 都 记录 了 自身 大 小 以 及 下 一 个 空闲 内 存单 元 的 地 址 ， 因 此 只 需要 一 个 全 局 变量 heaa 来 记 
录 链 表 中 第 一 个 空闲 内 存单 元 的 地 址 。 

算法 7.3 是 首次 适应 分 配 的 一 个 变种 ， 即 当 节 点 分 裂 之 后 将 后 半 个 内 存单 元 分 配 出 去 ， 
从 而 简化 了 代码 实现 。 该 方案 可 能 的 不 足 之 处 在 于 其 对 象 对 齐 方式 有 所 不 同 ， 但 无 论 如 何 这 
也 是 分 割 内 存单 元 的 一 种 方式 。 首 次 适应 分 配 的 特征 如 下 [Wilson 等 ，1995a, 第 31 页 ]: 

© 较 小 的 空闲 内 存单 元 会 在 靠近 链表 头 的 位 置 聚 集 ， 从 而 导致 分 配 速度 变 慢 。 

。 在 空间 使 用 率 方面 ， 在 首次 适应 分 配 算法 的 空闲 链表 中 ， 内 存单 元 会 大 致 以 从 小 到 

大 的 顺序 排列 ， 因 此 其 行为 模式 与 最 佳 适应 分 配 比较 相似 。 

在 首次 适应 分 配 算法 中 ， 空 闲 节点 在 链表 中 的 排列 顺序 是 一 个 值得 关注 的 问题 。 在 显 式 
内 存 管理 的 场景 下 ， 分 配器 可 以 将 被 释放 的 内 存单 元 插 人 空闲 链表 的 不 同位 置 ， 例 如 链表 头 
部 、 链 表示 尾 ， 也 可 以 按照 空闲 内 存单 元 的 地 址 或 者 大 小 进行 排序 。 而 在 垃圾 回收 场景 中 ， 
对 空闲 链表 中 的 内 存单 元 按照 地 址 进行 排序 通常 更 加 自然 ， 标 记 -清扫 回收 算法 使 用 的 便 是 
这 一 排序 策略 。 

算法 7.2 首次 适应 分 配 


1 firstFitAllocate(n): 

2 prev + addressOf(head) 
3 loop 

4 curr + next(prev) 

5 if curr = null 

6 return null /* AHR */ 
7 else if size(curr) < n 

8 prev + curr 

9 else 

10 return listAllocate(prev, curr, n) 


2 listAllocate(prev, curr, n): 


13 result ¢ curr 

u if shouldSplit(size(curr), n) 

15 remainder ¢ result + n 

16 next(remainder) + next(curr) 

17 size(remainder) + size(curr) 一 n 
18 next(prev) + remainder 

19 else 

20 next(prev) + next(curr) 

a return result 


算法 7.3 首次 适应 分 配 : 空闲 内 存单 元 分 裂 的 另 一 种 策略 


listAllocateAlt(prev, curr, n): 
if shouldSplit(size(curr), n) 


size(curr) + size(curr) 一 n; 
result + curr + size(curr) 
else 


next(prev) + next(curr) 
result ¢ curr 
return result 
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7.2.2 ”循环 首次 适应 分 配 


循环 首次 适应 分 配 (next-fit allocation) 是 首次 适应 分 配 算法 的 一 个 变种 。 在 分 配 内 存 
时 ， 该 算法 不 是 每 次 都 从 空闲 链表 头 部 开始 查找 ， 而 是 从 上 次 成 功 分 配 的 位 置 开 始 [Knuth ， 
1973]， 即 算法 7.4 中 的 prev 变量 。 当 查找 过 程 到 达 链 表 末 尾 时 ， 指 针 cure 将 绕 回 到 表 头 继 
续 进 行 查找 。 与 首次 适应 分 配 相 比 ， 该 算法 可 以 有 效 避 免 对 空闲 链表 前 端 较 小 空闲 内 存单 元 
的 遍历 。 虽 然 循环 首次 适应 分 配 看 起 来 很 有 吸引 力 ， 但 在 实践 中 它 通 常 表现 较 差 : 
e 在 空间 上 相 邻 的 存活 对 象 可 能 并 不 是 在 同一 时 段 分 配 ， 因 此 它们 被 回收 (或 者 显 式 释 
放 ) 的 时 间 也 通常 不 同 ， 从 而 加 剧 了 内 存 碎片 化 ( 见 7.3 节 )。 
e 在 分 配 与 释放 的 过 程 中 ， 空 闲 指 针 的 位 置 会 不 断 向 前 迭代 ， 导 致 新 分 配 出 去 的 空间 
并 不 是 刚刚 被 释放 的 内 存单 元 ， 因 此 其 空间 局 部 性 较 差 。 
© 在 同一 时 段 内 分 配 的 对 象 会 散落 在 堆 中 不 连续 的 位 置 上 ， 且 穿插 在 其 他 时 段 分配 的 
对 象 之 间 ， 从 而 降低 了 赋值 器 的 局 部 性 。 


算法 7.4 ”循环 首次 适应 分 配 


1 nextFitAllocate(n): 
2 start ¢ prev 

3 loop 

4 curr + next(prev) 

5 if curr = null 

6 prev + addressOf(head) /* 绕 回 空 闲 链 表 的 头 部 重新 开始 */ 
7 curr ¢ next(prev) 

8 if prev = start 

9 return null /* ABBR */ 
10 else if size(curr) < n 

n prev + curr 

2 else 

B return listAllocate(prev, curr, n) 


7.2.3 ”最 佳 适 应 分 配 


所 谓 最 佳 适 应 分 配 是 指 在 空闲 链表 中 找到 满足 分 配 要 求 且 空 间 最 小 的 空闲 内 存单 元 ， 其 
目的 在 于 减少 空间 浪费 ， 同 时 避免 不 必要 的 内 存单 元 分 裂 。 算 法 7.5 演示 了 最 佳 适应 分 配 的 
具体 实现 。 在 实际 应 用 中 ， 最 佳 使 用 分 配 似 乎 在 大 多 数 应 用 程序 中 都 表现 良好 ， 其 空间 浪费 
率 相 对 较 低 ,但 在 最 差 情 况 下 性 能 较 差 [Robson，1977]。 尽 管 这 一 测试 结果 是 在 显 式 内 存 释 
放 实 验 中 得 出 的 ,但 可 以 预测 ， 其 内 存 浪费 率 较 低 的 特征 在 垃圾 回收 系统 中 仍然 成 立 。 [90 | 


算法 7.5 最 佳 适应 分 配 


1 bestFitAllocate(n): 

2 best ¢ null 

3 bestSize ¢ oo 

4 prev + addressOf(head) 

5 loop 

6 curr + next(prev) 

7 if curr = null || size(curr) = n 
8 if curr # null 

9 bestPrev ¢ prev 
10 best + curr 

u else if best = null 
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2 return null /* 内 存 耗 尽 */ 
3 return listAllocate(bestPrev, best, n) 

14 else if size(curr) < n || bestSize < size(curr) 

15 prev + curr 

16 else 

17 best + curr 

18 bestPrev ¢ prev 

19 bestSize + size(curr) 


7.2.4 空闲 链表 分 配 的 加 速 


如 果 堆 空间 较 大 ， 则 仅 使 用 单个 顺序 链表 对 空闲 内 存单 元 进行 组 织 便 显得 力不从心 ， 因 
此 研究 者 们 开发 出 了 多 种 更 加 复杂 的 空闲 内 存单 元 组 织 方式 来 加 快 它 的 分 配 速度 。 一 种 显 而 
易 见 的 方案 是 使 用 平衡 二 又 树 来 组 织 空闲 内 存单 元 ， 从 而 可 以 按照 空间 大 小 〈 针 对 最 佳 适 应 
分 配 ) 或 者 地 址 顺序 (针对 首次 适应 或 者 循环 首次 适应 分 配 ) 进行 排序 。 当 按照 节点 大 小 进 
行 排序 时 ， 可 以 将 大 小 相同 的 空闲 节点 组 织 成 一 条 链表 ， 然 后 使 用 平衡 二 叉 树 对 各 条 链表 进 
行 管理 。 此 时 不 仅 查 询 效率 较 高 ， 而 且 由 于 节点 的 分 配 和 归还 通常 都 在 对 应 的 链表 中 完成 ， 
因而 树 的 变更 操作 较 少 ， 整 体 分 配 效 率 可 以 得 到 提升 。 

笛 卡 儿 树 [Vuillemin, 1980] 是 适用 于 首次 适应 分 配 或 者 循环 首次 适应 分 配 的 平衡 树 ， 
它 同 时 使 用 节点 的 地 址 (主键 ) 和 大 小 (次 键 ) 来 组 织 索 引 。 笛 卡 儿 树 依照 节点 地 址 进行 
排序 ， 同 时 也 将 节点 按照 空间 大 小 组 织 成 “ 堆 ”， 从 而 允许 在 首次 适应 或 循环 首次 适应 分 
配 中 快速 找到 满足 要 求 的 节点 。 这 一 策略 同时 也 被 称 为 快速 适应 分 配 ( fast-fit allocation) 
[Tadman, 1978 ; Standish, 1980; Stephenson，1983]。 对 于 笛 卡 儿 树 中 的 某 一 节点 ， 其 所 
记录 的 内 容 包括 : 该 节点 所 对 应 空闲 内 存单 元 的 地 址 和 大 小 、 左 右 子 节点 的 指针 、 节 点 自身 
及 其 子 树 中 最 大 空闲 内 存单 元 的 大 小 〈 该 值 的 计算 方法 是 先 获取 节点 自身 所 对 应 空闲 内 存 大 
小 、 左 右 子 节点 的 最 大 空闲 内 存 大 小 ， 然 后 取 三 者 的 最 大 值 )， 因 此 笛 卡 儿 树 的 节点 大 小 会 
比 基 于 链表 的 简单 方案 要 大 。 算 法 7.6 展示 了 基于 笛 卡 儿 树 实现 首次 适应 分 配 的 查找 过 程 ， 
其 中 忽略 了 树 中 节点 的 插入 和 删除 操作 。 全 局 变量 root 代表 笛 卡 儿 树 的 根 节点 ，max (n) 表 
示 节 点 n 的 子 树 (包括 节点 nn 自身) 中 最 大 空闲 内 存单 元 的 大 小 。 循 环 首次 适应 分 配 的 代码 
仅 比 首次 适应 分 配 稍为 复杂 一 些 。 


算法 7.6 ”使 用 笛 卡 儿 树 查找 空闲 节点 


firstFitAllocateCartesian(n): 


1 

2 parent ¢ null 

3 curr + root 

4 loop 

s if left(curr) # null & max(left(curr)) > n 
6 parent 人 一 curr 

7 curr ¢ left(curr) 

8 else if prev < curr s& size(curr) > n 

9 prev ¢ curr 

10 return treeAllocate(curr, parent, n) 

n else if right(curr) # null & max(right(curr)) > n 
12 parent + curr 

B curr + right(curr) 

1 else 


15 return null /* 内 存 耗 尽 */ 
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平衡 二 叉 树 的 引入 将 分 配 算法 在 最 坏 情况 下 的 时 间 复 杂 度 从 O(N) 降低 到 O Clog (N)), 
其 中 为 空闲 内 存单 元 的 数量 。 自 调整 树 (self-adjusting tree) (splay tree) [Sleator and 
Tarjan, 1985] 也 具有 类 似 的 优点 〈 即 平均 分 配 速度 较 快 )。 

对 于 首次 适应 或 循环 首次 适应 分 配 而 言 ， 将 空闲 内 存单 元 依照 地 址 进行 排序 的 另 一 种 有 
效 策 略 是 位 图 适应 分 配 (bitmapped-fits allocation)。 该 算法 使 用 额外 的 位 图 来 记录 堆 中 每 个 
可 分 配 内 存 颗 粒 的 状态 ， 因 此 在 进行 内 存 分 配 时 ， 分 配器 可 以 基于 位 图 而 非 堆 本 身 进 行 搜 
索 。 借 助 一 张 预 先 计算 好 的 映射 表 ， 分 配器 仅 需要 对 位 图 中 一 个 字 节 进 行 计 算 ， 便 可 得 知 其 
所 对 应 的 8 个 连续 内 存 颗 粒 所 能 组 成 的 最 长 连续 可 用 空间 。 也 可 以 使 用 额外 的 长 度 信息 记录 
较 大 的 空 闪 内 存单 元 或 者 已 分 配 内 存单 元 ， 从 而 快速 将 其 跳 过 以 提升 分 配 性 能 。 位 图 适应 分 
配 具 有 如 下 一 些 优 点 : 

e 位 图 本 身 与 对 象 相互 隔离 ， 因 此 不 容易 遭 到 破坏 。 这 一 特性 不 仅 对 于 诸如 C 和 C++ 

等 安全 性 稍 低 的 语言 十 分 重要 ， 而 且 对 于 安全 性 更 高 的 语言 也 十 分 有 用 ， 因 为 这 可 
以 提升 回收 器 的 可 靠 性 以 及 可 调试 性 。 

e 引入 位 图 之 后 ， 无 论 是 对 于 空闲 内 存单 元 还 是 已 分 配 内 存单 元 ， 回 收 器 都 不 需要 占 
据 其 中 的 任何 空间 来 记录 回收 相关 信息 ， 从 而 最 大 限度 地 降低 了 对 内 存单 元 大 小 的 
要 求 。 如 果 以 一 个 32 位 的 字 作 为 最 小 内 存 分 配 单元 ， 该 策略 会 引入 大 约 3% 的 空间 
开销 ， 但 其 所 带 来 收益 却 远大 于 这 一 开销 。 不 过 ， 基 于 其 他 一 些 方面 的 考虑 ， 对 象 
可 能 依然 需要 一 个 头 部 ， 因 而 这 一 优点 并 非 始 终 能 够 得 到 体现 。 

o 相对 于 堆 中 的 内 存单 元 ， 位 图 更 加 紧凑 ， 因 此 基于 位 图 进行 扫描 可 以 提升 高 速 缓存 

命中 率 ， 从 而 提升 分 配器 的 局 部 性 。 


7.3 ”内存 碎片 化 


对 于 支持 动态 内 存 分 配 的 系统 ， 在 程序 执行 的 初始 阶段 ， 堆 中 通常 仅 包含 一 个 或 者 少数 
几 个 大 块 连续 空闲 内 存 。 随 着 程序 执行 过 程 中 不 断 的 内 存 分 配 与 释放 ， 堆 中 逐渐 会 出 现 许 多 
较 小 的 空闲 内 存单 元 。 我 们 将 这 种 大 块 可 用 内 存 空间 被 拆 分 成 大 量 小 块 可 用 内 存 的 现象 称 为 
内 存 碎片 化 (fragmentation)。 对 于 动态 内 存 分 配 系 统 而 言 ， 碎 片 化 至 少 带 来 两 种 负面 影响 : 
© 导致 内 存 分 配 失败 。 对 于 一 次 内 存 分 配 请 求 ， 尽 管 堆 的 整体 空闲 内 存 足 够 ， 但 可 能 
所 有 的 空闲 内 存单 元 都 无 法 满足 分 配 需求 。 对 于 非 垃圾 回收 系统 ， 这 一 情况 通常 会 
导致 程序 崩溃 。 而 对 于 垃圾 回收 系统 而 言 ， 这 可 能 加 快 垃圾 回收 的 频率 。 
e 即使 堆 中 的 空闲 内 存 可 以 满足 分 配 需求 ， 碎 片 化 问题 仍 可 能 导致 程序 消耗 更 多 的 地 
址 空间 、 更 多 的 常 驻 内 存 页 以 及 更 多 的 高 速 缓存 行 。 
想 要 完全 避免 内 存 碎 片 是 不 切实 际 的 。 一 方面 ， 分 配器 通常 无 法 预测 程序 未 来 会 以 何 
种 序列 进行 内 存 分 配 ; 另 一 方面 ， 即 使 可 以 精确 地 预测 内 存 分 配 序列 ， 找 出 一 种 最 优 的 内 
存 分 配 策略 (即使 用 最 小 的 空间 来 满足 一 组 内 存 分 配 与 释放 序列 ) 也 是 NP 困难 的 [Robson, 
1980]。 尽 管 我 们 并 不 能 根除 内 存 碎片 化 ， 但 仍 可 以 找到 一 些 较 好 的 方法 来 对 其 进行 控制 。 
一 般 来 说 ,我 们 应 当 在 分 配 速度 和 碎片 化 之 间 进 行 一 个 粗略 的 平衡 ， 同 时 我 们 也 发 现 ， 在任 
何 情况 下 对 内 存 碎片 化 进行 预测 都 是 十 分 困难 的 。 
我 们 可 能 会 在 直觉 上 认为 最 佳 适应 分 配 的 内 存 碎片 较 少 ， 但 它 却 会 导致 堆 中 散布 大 量 很 
小 的 内 存 碎片 。 首 次 适应 分 配 也 会 产生 大 量 小 块 内 存 碎 片 ， 它 们 通常 集中 在 靠近 空闲 链表 头 
的 位 置 。 循 环 首 次 适应 分 配 趋向 于 将 小 块 碎片 均匀 地 分 散在 堆 中 ， 但 并 不 是 说 这 样 就 更 好 。 
唯一 可 以 解决 内 存 碎片 化 问题 的 方案 是 使 用 整理 式 或 者 复制 式 垃圾 回收 。 
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7.4 分 区 适应 分 配 


基本 的 空闲 链表 分 配器 会 将 大 多 数 时 间 花 费 在 合适 的 空闲 内 存单 元 的 查找 上 ， 因 此 如 
果 使 用 多 个 空闲 链表 对 不 同 大 小 ee PE ee 则 会 加 快 分 配 速度 [Comfort 
1964]。 在 本 节 所 述 的 “分 区 适应 ”概念 中 ， 多 个 空闲 链表 所 服务 的 仅仅 是 相同 的 逻辑 空间 ， 
而 在 第 9 章 我 们 将 看 到 ， 回 收 器 也 可 以 将 堆 划 分 为 “多 个 内 存 空 间 ?”， 且 每 个 内 存 空间 拥有 
其 专属 的 内 存 分 配器 ， 我 们 必须 对 这 两 个 概念 进行 区 分 。 例 如 ， 许 多 回收 器 会 对 大 对 象 或 者 
不 包含 任何 引用 的 大 对 象 (例如 图 像 或 者 其 他 二 进 制 数据 ) 进行 单独 管理 ， 这 不 仅 是 基于 性 
能 的 考虑 ， 而 且 是 因为 这 些 对 象 通常 都 具有 与 众 不 同 的 生命 周期 特征 。 这 些 大 对 象 可 能 会 位 
于 不 同 的 空间 ， 且 回收 器 会 对 它们 进行 特殊 处 理 。 另 外 ， 每 个 内 存 空 间 内 部 都 可 能 存在 独立 
的 大 对 象 集合 ， 且 它们 通常 使 用 分 区 适应 算法 进行 分 配 ， 但 是 内 存 空间 中 的 小 对 象 却 通常 使 
用 顺序 分 配 而 非 分 区 适应 分 配 。 有 许多 方法 可 以 将 分 区 适应 分 配 与 多 内 存 空间 策略 相 结 合 。 

分 区 适应 分 配 的 基本 思想 是 将 可 分 配 内 存单 元 的 大 小 限制 为 £ 种 ,其 中 , s< % 一 … 一 
Sio 大 值 的 选择 可 以 有 多 种 ， 但 其 通常 是 一 个 固定 值 。 空 闲 链表 通常 有 上 + 1 个 ， 即 万 ，…， 
f。 在 空闲 链表 f 中， 空闲 内 存单 元 的 大 小 5b 必须 满足 w- 一 < s;,， 其 中 , s_1=0, si=+%。 
由 于 分 区 的 目的 在 于 避免 内 存 分 配 时 的 空闲 内 存单 元 查找 过 程 ， 所 以 我 们 可 以 进一步 将 空闲 
链表 大 中 内 存单 元 的 大 小 精确 地 限制 为 %， 但 空闲 链表 斥 是 一 个 例外 ， 它 将 用 于 保存 所 有 大 
于 si 的 空闲 内 存单 元 。 当 需要 分 配 不 大 于 si_ 的 内 存单 元 时 ， 分 配器 会 将 所 需 的 空间 大 小 
b 咎 上 圆 整 到 不 小 于 4。 的 最 小 的 s;。 我 们 将 不 同 大 小 的 s; 称 为 空间 大 小 分 级 (size class), Al 
此 针对 5b 的 空间 大 小 分 级 即 为 满足 s; < b < s; 的 一 个 。 

空闲 链表 中 所 管理 的 是 所 有 大 于 sw 的 空闲 内 存单 元 ， 我 们 可 以 使 用 7.2 节 所 描述 的 某 
种 单 链表 算法 进行 管理 ， 因 此 笛 卡 儿 树 或 者 其 他 具有 较 好 的 期 望 时 间 性 能 的 数据 结构 都 是 不 
错 的 备 选 方案 。 一 方面 ， 大 对 象 的 分 配 通 常 不 太 频繁 ; 男 一 方面 ， 即 使 抛 开 分 配 频 率 这 一 因 
素 ， 仅 对 较 大 对 象 进行 初始 化 就 会 付出 较 大 开销 。 因 此 ， 即 使 大 对 象 的 分 配 开销 比 在 单一 空 
间 大 小 的 链表 中 进行 分 配 稍 高 ， 其 对 程序 整体 执行 时 间 的 影响 也 不 会 超过 1%。 

对 于 大 小 为 b 的 内 存 分 配 需求 ， 有 多 种 方式 可 以 加 速 对 应 的 空间 大 小 分 级 的 计算 。 假 
设 so 到 si 之 间 的 空间 大 小 等 级 均匀 分 布 ， 即 s= sotet i, He>0, Wb > sm, MI 
应 的 空间 大 小 分 级 为 so 否则 将 为 s;， 其 中 j= [b 一 so。+c 一 1) / c]〈 即 线性 适 配 ， 表 达 式 中 
加 上 <c 一 1 的 目的 是 为 了 向 上 圆 整 )。 例 如 ， 假定 某 一 分 配 策 略 的 参数 是 : so = 8, c=8, k= 
16， 这 意味 着 8 ~ 128 中 每 个 能 够 被 8 整除 的 数字 都 是 一 个 空间 大 小 分 级 ， 且 > 128 的 
内 存 分 配 需求 将 交 由 通用 的 空闲 链表 算法 进行 管理 。 对 于 以 字 节 〈byte) 为 单位 进行 寻 址 的 
计算 机 ， 分 配 的 单位 通常 为 字 节 ;， 而 对 于 以 字 (word) 为 单位 进行 寻 址 的 计算 机 ， 分 配 的 
单位 通常 是 字 。 即 使 分 配 单位 是 字 节 ， 内 存 颗粒 的 大 小 通常 也 会 是 一 个 字 或 者 更 大 。 如 果 c 
是 2 的 整数 次 究 ， 则 表达 式 中 的 除法 操作 可 以 用 移 位 的 方式 实现 ， 这 将 比 通用 的 除法 操作 快 
得 多 。 

较 小 的 空间 大 小 分 级 可 以 分 布 得 较为 密集 。 除 此 之 外 ， 为 避免 对 通用 空闲 链表 分 配 算法 
的 调用 ， 分 配器 也 可 以 提供 多 个 较 大 的 、 分 布 较为 稀 朴 的 空间 大 小 分 级 。 例 如 ， 在 Boehm- 
Demers-Weiser 回收 器 中 ， 不 大 于 8 字 节 的 对 象 均 会 在 8 字 节 的 空闲 链表 中 分 配 ， 然 后 在 
16 ~ 32 字 节 中 ， 每 个 能 被 4 整除 的 数字 都 会 对 应 一 级 空闲 链表 [Boehm and Weiser，1988]。 
对 于 大 于 32 字 节 的 分 配 需求 ， 则 需 动态 确定 其 对 应 的 空闲 链表 ， 即 : 使 用 一 个 数组 将 所 需 
内 存 大 小 (以 字 节 为 单位 ) 映射 到 对 应 的 分 配 大 小 〈 以 字 为 单位 )， 然 后 在 空闲 链表 数组 中 直 
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接 以 分 配 大 小 为 索引 找到 对 应 的 空闲 链表 ， 这 些 空间 链表 均 使 用 懒惰 填充 策略 。 

如 果 将 空间 大 小 分 级 的 集合 固化 在 运行 时 系统 中 ( 即 在 系统 编译 时 就 已 经 确定 )， 则 理 
论 上 对 于 任何 在 编译 期 可 以 确定 大 小 的 分 配 需求 ， 编 译 器 都 可 以 预先 确定 其 所 对 应 的 空闲 链 
表 ， 这 通常 可 以 提高 大 多 数 分 配 操作 的 性 能 。 

基于 单个 空闲 链表 的 顺序 分 配 (如 首次 适应 、 最 佳 适 应 等 算法 ) 通常 会 花费 较 长 的 时 间 
以 寻找 合适 的 空闲 内 存单 元 ， 而 如 果 引 入 某 种 形式 的 平衡 树 ， 则 在 最 差 情 况 下 的 时 间 复 杂 度 
会 降低 到 对 数 级 别 。 相 比 之 下 ， 分 区 适应 分 配 的 主要 优势 在 于 ， 任 何在 非 w 的 空间 大 小 分 
级 中 执行 的 分 配 都 会 在 常数 时 间 内 完成 ， 如 算法 7.7 所 示 ， 也 可 参见 算法 2.5 中 的 懒惰 清扫 
变 体 。 

算法 7.7 分 区 适应 分 配 

1 segregatedFitAllocate(j): /* 了 为 空间 大 小 分 级 sj 的 索引 号 */ 

2 result ¢- remove(freeLists[j]) 

3 if result = null 

4 large + allocateBlock() 

5 if large = null 

6 return null /* ARR */ 

7 initialise(large, sizes[3]) 

8 result + remove(freeLists|[}]) 

9 return result 


7.4.1 内存 碎 片 


7.2 节 所 述 的 简单 空闲 链表 分 配器 只 会 面临 一 种 内 存 碎片 情况 ， 即 空闲 内 存单 元 太 小 以 
至 于 无 法 满足 任何 分 配 需求 。 由 于 不 可 用 空间 分 布 在 已 分 配 空间 之 外 ， 因 此 这 种 碎片 被 称 为 
外 部 碎片 ( external fragmentation )。 而 在 引入 空间 大 小 分 级 之 后 ， 分 配器 必须 将 分 配 需求 向 
上 圆 整 到 某 一 特定 的 空间 大 小 分 级 ， 因 此 在 已 分 配 的 内 存单 元 内 部 就 可 能 存在 空间 上 的 浪 
费 ， 由 此 造成 的 碎片 被 称 为 内 部 碎片 〈internal fragmentation)。 分 区 适应 分 配 需要 在 内 部 碎 
片 和 空间 大 小 分 级 数量 方面 进行 平衡 。 特 定 的 字 节 对 齐 要 求 也 会 以 类 似 的 方式 引入 碎片 ， 但 
由 于 不 可 用 空间 位 于 已 分 配 内 存单 元 之 外 ， 所 以 从 严格 意义 上 讲 这 一 情况 属于 外 部 碎片 。 


7.4.2 空间 大 小 分 级 的 填充 


在 分 区 适应 分 配 算法 中 ， 各 级 空闲 链表 的 填充 也 是 需要 考虑 的 一 个 重要 方面 。 我 们 将 介 
绍 两 种 填充 策略 ,一 种 策略 是 单个 内 存 块 仅 用 于 填充 特定 大 小 的 空闲 链表 ， 即 页 簇 分 配 ; 另 
一 种 策略 则 是 基于 内 存 块 分 裂 的 策略 。 

基于 内 存 块 的 页 簇 分 配 (big bag of pages block-based allocation) 该 方案 需要 一 个 块 分 
配器 来 分 配 大 小 为 B 的 内 存 块 ， 且 B 为 2 的 整数 次 军 。 对 于 大 于 8 的 内 存 分 配 需 求 ， 将 直 
接 从 块 分 配器 中 获取 一 组 连续 内 存 块 。 对 于 s < 中 的 空间 大 小 分 级 ， 如 果 分 配器 需要 分 配 
更 多 这 一 大 小 的 内 存单 元 ， 首 先 需 要 从 块 分 配器 中 获取 一 个 内 存 块 ， 然 后 再 将 该 内 存 块 分 
割 成 大 小 为 s 的 内 存单 元 ， 并 填充 到 空闲 链表 中 。 分 配器 通常 需要 记录 每 个 内 存 块 填充 了 哪 
个 空间 大 小 分 级 ， 并 将 该 信息 与 其 他 元 数据 (例如 该 内 存 块 中 内 存单 元 的 标记 位 ) 一 起 记录 
在 内 存 块 内 部 ， 但 Boehm 和 Weiser[1988] 认为 更 好 的 方案 是 将 其 记录 在 独立 的 空间 中 ， 这 
样 一 来 ， 如 果 仅 需要 对 内 存 块 的 元 数据 进行 查找 和 更 新 ， 该 方案 可 以 减少 转译 后 备 缓冲 区 
( translation lookaside buffer) 不 命中 以 及 缺 页 异常 (page fault) 的 几率 ， 同 时 也 无 需 刻 意 将 
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每 个 内 存 块 中 的 元 数据 以 不 同 的 方式 对 齐 (以 避免 不 同 内 存 块 的 元 数据 之 间 竞 争 相 同 的 高 速 
缓存 集合 )。 

在 2.5 节 对 懒惰 清扫 的 描述 过 程 中 ,我们 介绍 了 基本 的 基于 内 存 块 的 分 配 ( block-based 
allocation) 策略 ， 该 策略 的 优势 在 于 系统 能 够 以 内 存 块 而 非 单个 内 存单 元 为 单位 来 记录 元 
数据 ， 但 这 样 却 会 使 内 存 碎片 问题 更 加 复杂 : 如 果 每 个 内 存 块 仅 用 于 填充 一 种 大 小 的 空闲 
链表 ， 则 每 个 内 存 块 中 (平均 ) 一 半 的 空间 会 被 浪费 ， 而 对 于 特定 的 空间 大 小 分 级 ， 最 差 情 
况 下 内 存 块 的 浪费 率 将 达到 (B—s)/ B (此 时 每 个 内 存 块 中 仅 有 一 个 内 存单 元 被 分 配 出 去 )。 
WR 8 不 能 被 s 整除 ， 则 在 内 存 块 的 末尾 会 存在 一 块 小 于 s 的 空间 无 法 使 用 ? ， 对 于 内 存 块 而 
言 ， 它 属于 内 部 碎片 ， 而 对 于 内 存单 元 而 言 ， 它 属于 外 部 碎片 。 

在 某 些 系统 中 ， 内 存单 元 所 关联 的 元 数据 不 仅 包括 其 空间 大 小 ， 还 包括 该 其 内 所 承载 的 
对 象 的 类 型 。 如 果 单 个 内 存 块 仅 用 于 分 配 一 种 类 型 的 对 象 ， 可 能 会 造成 较 大 的 内 存 碎片 ( 因 
为 大 小 相同 但 类 型 不 同 的 两 种 对 象 必 须 从 不 同 的 内 存 块 中 分 配 ， 且 由 不 同 的 空闲 链表 进行 
管理 )， 但 对 于 空间 较 小 且 数 量 较 多 的 类 型 ， 如 果 将 其 元 数据 记录 在 内 存 块 而 非 内 存单 元 中 ， 

则 在 空间 上 的 节省 效果 还 是 相当 明显 的 ， 例 如 Lisp 语言 中 的 cons 单元 。 

如 果 将 较 小 内 存单 元 的 元 数据 与 其 所 在 的 内 存 块 进行 关联 ， 则 空闲 内 存单 元 的 合并 将 极 
为 简单 高 效 : 只 有 当 内 存 块 中 所 有 的 内 存单 元 都 被 释放 时 ， 才 需要 合并 空闲 内 存单 元 ， 然 后 
再 将 整个 内 存 块 归 还 给 块 分 配器 。 对 于 一 般 的 内 存 分 配 需求 ， 分 配器 只 需 简 单 地 从 对 应 的 空 
闲 链表 中 分 配 一 个 内 存单 元 ， 如 果 空 闲 链表 为 空 ， 则 直接 分 配 一 个 内 存 块 并 用 其 填充 空闲 链 
表 。 这 一 分 配 过 程 十 分 高 效 ， 但 其 主要 缺陷 在 于 ， 最 差 情 况 下 的 内 存 碎 片 问题 较为 严重 。 

内 存 块 分 裂 (splitting) 在 7.2 节 对 几 种 简单 空闲 链表 分 配 算法 的 介绍 中 ， 我 们 已 经 提 
到 了 空闲 内 存单 元 的 分 裂 策略 ， 即 从 较 大 的 空闲 内 存单 元 中 拆 出 一 块 以 满足 较 小 的 内 存 分 
配 需求 。 如 果 空 间 大 小 分 级 的 分 布 较为 密集 ， 则 在 拆 分 一 个 空闲 内 存单 元 时 ， 很 可 能 会 有 
一 个 合适 的 空闲 链表 恰好 能 够 接纳 剩余 的 内 存单 元 。 如 果 不 希 望 空间 大 小 分 级 过 密 ， 也 可 
以 使 用 一 些 特殊 的 方法 来 组 织 空闲 链表 并 达到 相同 效果 。 伙 伴 系 统 (buddy system) 即 是 满 
足 这 一 条 件 的 方案 之 一 ， 其 空间 大 小 分 级 均 为 2 的 整数 次 寡 [Knowlton, 1965; Peterson and 
Norman，1977]。 我 们 可 以 将 一 个 大 小 为 2” 的 空闲 内 存单 元 分 型 为 两 个 大 小 为 24 fgg 
存单 元 ， 同 时 也 可 以 将 两 个 相 邻 的 大 小 为 2 的 空闲 内 存单 元 合并 成 大 小 为 2” 的 一 个 ， 但 进 
行 合 并 的 前 提 是 两 个 相 邻 空闲 内 存单 元 原本 就 是 由 cee 
在 该 算法 中 ， 大 小 为 2 的 空闲 内 存单 元 两 两 成 对 ， 因 而 称 之 为 伙伴 。 由 于 伙伴 系统 的 内 部 
碎片 通常 较为 严重 (对 于 任意 的 内 存 分 配 需求 ， 其 平均 空间 浪费 率 会 达到 25%)， 因 此 该 算 
法 基本 已 经 成 为 历史 ， 在 实践 中 较 少 使 用 。 

= jk AB 3 AKAF AH (Fibonacci buddy system) [Hirschberg, 1973; Burton, 1976; Peterson and 
Norman, 1977] 是 伙伴 系统 的 一 个 变种 ， 其 空间 大 小 分 级 符合 斐 波 那 契 序列 ， 即 wa = Sa + 8, 
同时 需要 选 定 合适 的 so 和 s1。 与 传统 的 伙伴 系统 相 比 ， 该 算法 相 邻 空闲 内 存单 元 的 大 小 比值 
更 小 ， 因 而 在 一 定 程度 上 缓解 了 内 部 碎片 问题 。 但 该 算法 的 问题 在 于 ， 在 回收 完成 后 将 相 邻 
ne 因为 回收 器 需要 判定 某 一 空闲 内 存单 元 究竟 应 当 与 相 
邻 两 个 空闲 内 存单 元 中 的 哪 一 个 进行 合并 。 


O 可 能 是 为 了 减缓 内 存 块 前 端 数据 产生 缓存 冲突 的 概率 ，Boehm 和 Weiser[1988] 将 这 块 不 可 用 的 内 存放 置 在 内 
存 块 的 前 端 而 非 未 端 。 当 缓存 行 较 小 时 其 作用 较为 明显 ， 因 为 只 有 当 内 存单 元 大 于 一 个 缓存 行 时 ， 这 一 策略 
才 会 起 作用 。 
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伙伴 系统 还 存在 一 些 其 他 变种 ， 具 体 可 以 参见 Wise[1978], Page and Hagins[1986], 
Wilson 等 [1995b]。 


7.5 分 区 适应 分 配 与 简单 空闲 链表 分 配 的 结合 


我 们 可 以 将 分 区 适应 分 配 当 作 单 一 空闲 链表 分 配 的 前 端 加 速 器 ， 并 将 回收 所 得 的 内 存单 
元 置 于 其 空间 大 小 分 级 所 对 应 的 空闲 链表 中 。 在 进行 一 次 内 存 分 配 时 ， 如 果 发 现 请 求 所 对 应 
的 空闲 链表 为 空 ， 则 可 以 使 用 最 佳 适 应 策略 〈 即 沿 着 空间 大 小 分 级 增 大 的 方向 ) 在 更 大 的 空 
闲 链表 中 进行 查找 ， 当 然 也 可 以 使 用 首次 适应 或 循环 首次 适应 策略 ， 其 不 同 之 处 仅 在 于 发 现 
空闲 链表 为 空 之 后 如 何 进行 处 理 。 不 论 使 用 哪 种 策略 ， 分 配器 都 可 以 确保 查找 过 程 能 够 在 空 
闲 链表 大 中 结束 ， 该 链表 中 所 有 的 空闲 内 存单 元 都 比 si 要 大 ， 此 时 便 需 要 使 用 基于 空闲 链 
表 的 分 配 策略 (首次 适应 、 最 佳 适 应 或 循环 首次 适应 ) 来 完成 分 配 。 

该 策略 的 另 一 种 描述 方式 是 : 如 何在 已 有 的 分 区 适应 分 配 策略 上 实现 对 空闲 链表 大 的 管 
理 ， 其 方案 通常 包含 以 下 几 种 : 

o 将 其 作为 单个 空闲 链表 ， 从 而 使 用 首次 适应 、 最 佳 适应 、 循 环 首次 适应 或 者 它们 的 

变种 ， 例 如 笛 卡 儿 树 或 者 其 他 可 以 加 速 空 亲 内 存单 元 查找 的 数据 结构 。 
o 使 用 基于 内 存 块 的 分 配 。 
© 使 用 伙伴 系统 。 


76 ”其 他 需要 考虑 的 问题 


真正 的 内 存 分 配器 通常 还 要 考虑 其 他 一 些 问题 ， 包 插 字 节 对 齐 (alignment)、 空 间 大 小 
限制 (size constraint)、 边 界 标 签 (boundary tag)、 堆 可 解析 性 (heap parsability)、 局 部 性 
(locality)、 拓 展 块 保护 (wilderness preservation)、 跨 越 映 射 (crossing map) 等 ， 我 们 将 逐一 
进行 讨论 。 


7.6.1 字 节 对 齐 


将 对 象 按照 特定 的 边界 要 求 进行 对 齐 ， 一 方面 是 底层 硬件 或 者 机 器 指令 集 的 要 求 ， 另 
一 方面 这 样 做 有 助 于 提升 各 层次 存储 器 的 性 能 (包括 高 速 缓存 、 转 译 后 备 缓冲 区 、 内 存 页 )。 
以 Java 语言 的 double 数组 为 例 ， 某 些 机 器 可 能 要 求 double 这 一 双 字 浮 点 数 必须 以 双 字 为 边 
界 进 行 对 齐 ， 即 其 地 址 必须 是 8 的 整数 倍 (地址 的 后 三 位 为 零 )。 一 种 简单 但 稍 显 浪费 的 解 
决 方案 是 将 双 字 作为 内 存 分 配 的 颗粒 ， 即 所 有 已 分 配 或 未 分 配 内 存单 元 的 大 小 均 为 8 的 整数 
倍 ， 且 均 按 照 8 字 节 边 界 对 齐 。 但 即便 如 此 ， 当 分 配 一 个 aouble 类 型 的 数组 时 ， 分 配器 仍 
需要 进行 一 些 额外 工作 。 假 设 Java 语言 中 纯 对 象 ( 即 非 数组 对 象 ) 头 部 都 必须 保留 两 个 字 ， 
一 个 指向 对 象 的 类 型 信息 〈 用 于 虚 函 数 调 用 、 类 型 判定 等 )， 另 一 个 用 于 记录 对 象 的 哈 希 值 
以 及 同步 操作 所 需 的 锁 (这 也 是 一 种 典型 的 设计 方式 )。 数 组 对 象 则 需要 第 三 个 字 来 记录 其 
中 元 素 的 个 数 。 如 果 将 这 三 个 头 部 字 保 存在 已 分 配 内 存单 元 的 起 始 位置 ， 则 数组 元 素 就 不 得 
不 以 奇数 字 为 单位 进行 对 齐 。 如 果 使 用 双 字 作为 内 存 颗 粒 ， 则 可 以 简单 地 用 四 个 字 〈 即 两 个 
双 字 ) 来 保存 这 三 个 头 部 字 ， 然 后 浪费 掉 一 个 。 

但 如 果 内 存 颗粒 是 一 个 字 ， 我 们 则 和 希望 尽量 减少 上 述 的 内 存 浪 费 。 此 时 ， 如 果 某 个 空闲 
内 存单 元 按照 奇数 字 对 齐 ( 即 其 地 址 模 8 余 4 )， 则 我 们 可 以 简单 地 将 三 个 头 部 字 放 在 内 存单 
元 的 起 始 位 置 ， 后 续 的 数组 元 素 自然 会 满足 双 字 的 对 齐 要求 。 如 果 某 个 空闲 内 存单 元 按照 双 
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字 对 齐 ， 则 我 们 必须 浪费 一 个 字 以 满足 对 齐 要 求 。 这 一 方案 增加 了 分 配 过 程 的 复杂 度 ， 因 为 
某 一 空闲 内 存单 元 是 否 满足 分 配 需 求 不 仅 取 决 于 所 需 空 间 的 大 小 ， 还 取决 于 字 节 对 齐 要 求 ， 
正如 算法 7.8 所 示 。 


算法 7.8 ”结合 字 节 对 齐 要 求 进行 内 存 分 配 


pad = z= Blk 
return n + pad < size(curr) 


1 fits(n, a, m, blk): /* 判断 大 小 为 blk 的 空闲 内 存 是 否 可 以 满足 分 配 需求 */ 
2 /* nn 为 所 需 空间 大 小 ，a 为 空闲 内 存 对 齐 方式 ，m 为 分 配 所 要 求 的 对 齐 方式 且 为 2 的 整数 次 矫 */ 
3 z + blk — a /* 预 留 a 的 空间 */ 
‘ z + (z +m- 1) & “(m —- 1) /* 向 上 圆 整 到 m 的 倍数 */ 
zezta /* 补偿 a 的 空间 */ 


7.6.2 空间 大 小 限制 


某 些 回收 器 要 求 对 象 〈 内 存单 元 ) 的 大 小 必须 大 于 某 一 下 界 。 例 如 ， 基 本 的 整理 式 回 收 
要 求 对 象 内 部 至 少 可 以 容纳 一 个 指针 ， 还 有 一 些 回收 器 可 能 需要 用 两 个 字 来 保存 锁 或 状态 
以 及 转发 指针 ， 这 就 意味 着 即使 开发 者 仅 需要 分 配 一 个 字 ， 分 配器 也 必须 多 分 配 两 个 字 。 如 
果 开 发 者 需要 分 配 不 包含 任何 数据 、 仅 用 作 唯 一 标识 的 对 象 ， 原 则 上 编译 器 无 需 分 配 任何 空 
间 ， 但 在 实际 情况 下 这 通常 不 可 行 : 对 象 必 须要 有 唯一 的 地 址 ， 因 此 对 象 的 大 小 至 少 应 为 一 
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7.6.3 边界 标签 


为 了 确保 在 释放 内 存 时 可 以 将 相 邻 空闲 内 存单 元 合并 ， 许 多 内 存 分 配 系统 为 每 个 内 存单 
元 增加 了 额外 的 头 部 或 者 边界 标签 ， 它 们 通常 不 属于 可 用 内 存 的 范畴 [Knuth，1973]。 边 界 
标签 保存 了 内 存单 元 的 大 小 及 其 状态 ( 即 空闲 或 已 分 配 )， 还 可 以 在 其 中 记录 上 一 个 内 存单 
元 的 大 小 ， 从 而 可 以 快速 读 取 上 一 个 内 存单 元 的 状态 并 判断 其 是 否 为 空 。 当 内 存单 元 空闲 
时 ， 边 界 标签 也 可 用 于 保存 构建 空闲 链表 的 指针 。 基 于 这 些 原因 ， 边 界 标签 可 能 达到 两 个 字 
或 者 更 大 ， 但 如 果 使 用 一 些 额 外 的 方法 ， 并 人 允许 在 分 配 和 释放 的 过 程 中 引入 一 定 的 额外 开 
销 ， 则 仍 有 可 能 将 边界 标签 压缩 到 一 个 字 。 

如 果 使 用 额外 的 位 图 来 标记 堆 中 每 个 内 存 颗粒 的 状态 ， 则 不 仅 无 需 使 用 边界 标签 ， 而且 
可 以 增加 程序 的 鲁 棒 性 。 这 一 方法 是 否 会 减少 空间 开销 ， 取 决 于 对 象 的 平均 大 小 以 及 内 存 颗 
粒 的 大 小 。 

我 们 进一步 注意 到 ， 垃 圾 回收 通常 会 一 次 性 释放 大 量 对 象 ， 因 此 某 些 特定 的 算法 可 能 不 
再 需要 边界 标签 ， 或 者 其 边界 标签 中 需要 包含 的 信息 较 少 。 另 外 ， 托 管 语言 中 对 象 的 大 小 通 
常 可 以 通过 其 类 型 得 出 ， 因 而 无 需 使 用 额外 的 边界 标签 来 单独 记录 相关 信息 。 


7.6.4” 堆 可 解析 性 


在 标记 -清扫 回收 的 清扫 阶段 ， 回 收 器 必须 能 够 顺 次 逐个 遍历 堆 中 的 每 个 内 存单 元 ,我 
们 将 这 一 能 力 称 为 堆 可 解析 性 。 尽 管 对 于 其 他 种 类 的 回收 器 而 言 ， 堆 可 解析 性 并 非 不 可 或 
缺 ， 但 它 对 于 回收 器 的 调试 将 是 十 分 有 用 的 ， 因 此 如 果 条 件 允 许 ， 支 持 堆 可 解析 性 还 是 很 有 
必要 的 。 

通常 我 们 只 需要 支持 单方 向 的 堆 解 析 ， 即 沿 着 地 址 增 大 的 方向 。 编 程 语言 通常 会 在 对 象 
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内 部 使 用 一 到 两 个 字 来 记录 对 象 的 类 型 以 及 其 他 信息 ， 我 们 称 之 为 对 象 的 头 部 。 例 如 ， 在 许 
多 Java 语言 的 实现 中 ， 对 象 头 部 通常 会 占据 两 个 字 ， 一 个 用 于 记录 对 象 的 类 型 (指向 类 型 信 
息 的 指针 ， 类 型 信息 中 会 包含 该 类 的 方法 分 派 向 量 ， 另 一 个 用 于 记录 哈 希 值 、 同 步 信息 、 垃 
圾 回收 标记 位 等 。 对 于 数组 而 言 ， 如 果 数 组 的 引用 与 其 首 个 元 素 的 引用 相同 ， 且 后 继 元 素 在 
高 地 址 方向 顺 次 连续 排列 ， 则 通过 索引 快速 获取 数组 元 素 这 一 操作 在 大 多 数 机 器 上 都 可 以 高 
效 地 完成 。 由 于 运行 时 系统 以 及 垃圾 回收 器 通常 需要 以 某 种 统一 的 方式 来 获取 对 象 的 类 型 ， 
所 以 我 们 将 对 象 的 头 部 置 于 它 的 数据 之 前 ， 但 这 样 一 来 ， 对 象 的 引用 便 不 再 是 其 所 占用 内 存 
单元 的 首 地 址 ， 而 是 数据 区 某 个 域 的 地 址 。 将 对 象 的 头 部 置 于 数据 之 前 有 助 于 堆 的 前 向 解析 。 

同样 以 Java 系统 为 例 ， 每 个 数组 实例 均 需 单独 记录 自身 长 度 。 将 length 域 置 于 一 般 对 
象 会 用 到 的 两 个 域 之 后 可 以 简化 堆 的 解析 。 此 时 数组 的 首 个 元 素 将 位 于 内 存单 元 的 第 三 个 
F, Mj length 域 的 索引 号 是 -1， 其 他 两 个 头 域 的 索引 分 别 为 -2 和 -3。 为 确保 对 象 类 型 的 
获取 方式 一 致 ， 非 数组 的 纯 对 象 同样 也 需要 将 其 两 个 头 域 置 于 索引 号 为 -2 和 -3 位 置 ， 这 
可 能 导致 索引 号 为 -1 的 位 置 出 现 空洞 ， 但 将 对 象 内 部 的 数据 整体 前 移 一 个 字 便 可 以 解决 这 
一 问题 (此 处 假定 硬件 允许 依照 一 个 较 小 的 负数 常量 进行 索引 ， 大 多 数 硬件 满足 这 一 要 求 )。 
另外 ， 即 使 对 象 不 包含 额外 的 域 ， 对 于 这 一 布局 策略 ， 依 然 不 会 存在 任何 内 存 浪 费 的 问题 : 
该 对 象 的 引用 可 以 是 其 后 继 对 象 某 个 头 域 的 地 址 。 图 7.2 对 这 三 种 情况 都 进行 了 描述 。 

某 些 系统 会 存在 使 用 较 小 对 象 覆 盖 较 大 对 象 的 情况 〈 例 如 许多 函数 式 语 言 会 将 某 个 闭 
包 蔡 换 为 其 计算 后 的 值 )， 此 时 可 能 出 现 一 些 特殊 的 问题 。 如 果 履 盖 时 不 采取 额外 操作 ， 则 
回收 恬 在 扫描 堆 的 过 程 中 可 能 会 遇 到 覆盖 操作 的 中 间 状 态 ， 进 而 引发 一 些 不 可 预知 的 错误 。 
Non-Stop Haskell 通过 插入 一 个 填充 对 象 (filler object) 的 方式 解决 了 这 一 问题 [Cheadle 等 ， 
2004]。 赋 值 器 在 创建 闭 包 时 通常 会 预 留 1 ~ 8 个 字 的 元 数据 ， 正 常情 况 下 的 覆盖 操作 仅 需 
要 在 元 数据 中 插入 一 个 适当 大 小 的 无 指针 对 象 ， 而 很 少 会 出 现 较 大 的 填充 对 象 ， 一 旦 出 现 则 
需要 动态 创建 元 数据 2 。 
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a) 数组 Hana eae ey 
图 7.2 Java 对 象 头 部 的 内 存 布局 ， 其 目的 在 于 保证 堆 的 可 解析 性 。 灰 色 方 框 表 示 对 象 所 占用 的 空间 ， 虚 


线 框 表示 相 邻 对 象 所 占用 的 空间 
最 后 需要 考虑 的 是 字 节 对 齐 可 能 引发 的 问题 。 如 果 出 于 字 节 对 齐 的 目的 而 对 某 个 对 象 进 
行 一 个 或 者 数 个 字 的 移 位 ， 那 么 我 们 需要 在 由 此 造成 的 空隙 中 记录 一 些 数据 ， 以 便 回收 器 在 


© Cheadel 等 人 并 未 提供 具体 细节 ,但 在 这 种 情况 下 ,我 们 有 理由 将 元 数据 置 于 填充 对 象 中 ， 这样 可 以 避免 任 
何 为 确保 堆 可 解析 性 而 引入 的 运行 时 内 存 分 配 。 
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进行 堆 解析 时 将 其 跳 过 。 如 果 可 以 确保 对 象 头 部 以 非 零 字 开 始 ， 那 么 可 以 将 空隙 填充 为 零 ， 
并 在 堆 解 析 时 简单 地 跳 过 这 些 为 零 的 字 。 而 另 一 种 简单 的 方法 是 将 特定 范围 的 值 写 人 空隙 的 
起 始 位 置 ， 该 值 不 仅 可 以 表示 接 下 来 的 一 段 内 存 是 空隙 ， 而 且 可 以 反映 空隙 的 长 度 。 例 如 ， 
Sun 公司 长 期 以 来 都 使 用 一 种 所 谓 的 “ 自 解析 堆 ”:， 当 (在 不 可 移动 的 空间 中 ) 释放 一 个 对 
象 时 ， 回 收 咒 使 用 一 个 填充 对 象 覆 盖 其 空间 ， 而 填充 对 象 内 部 会 包含 一 个 表示 自身 大 小 的 域 
(认为 它 是 一 个 字数 组 )， 清 扫 融 可 以 据 此 快速 跳 过 空闲 内 存单 元 并 找到 下 一 个 真正 的 对 象 。 

如 果 使 用 位 图 来 记录 每 个 对 象 的 起 始 位 置 ， 不 仅 可 以 简化 堆 的 解析 过 程 ， 而 且 降 低 了 对 
象 头 部 的 设计 要 求 ， 其 不 足 之 处 在 于 位 图 会 占用 额外 的 空间 ， 在 分 配 过 程 中 对 位 图 进行 操作 
也 会 花费 额外 的 时 间 。 但 对 于 许多 回收 器 而 言 ， 基 于 位 图 的 分 配 依然 十 分 有 用 ， 特 别 是 对 于 
并 行 回收 需 与 并 发 回收 需 。 

本 节 介 绍 了 Java 语言 中 一 种 可 以 确保 堆 的 可 解析 性 的 设计 实现 ， 其 设计 思想 同样 适用 
于 其 他 语言 。 另 外 ， 基 于 内 存 块 的 分 配 不 仅 会 简化 小 块 内 存单 元 的 解析 ， 而 且 也 可 以 简化 大 
块 内 存 的 处 理 。 为 提升 高 速 缓存 性 能 ， 我 们 可 以 将 大 对 象 置 于 连续 内 存 块 中 的 随机 位 置 2 , 
这 样 一 来 ， 该 对 象 之 前 或 者 之 后 浪费 的 空间 也 是 一 个 随机 值 。 为 确保 堆 的 可 解析 性 ， 可 以 将 
大 对 象 的 地 址 简单 地 记录 在 内 存 块 的 起 始 位 置 。 


7.6.5 ”局 部 性 


在 内 存 分 配 过 程 中 ， 局 部 性 的 影响 表现 在 多 个 方面 。 分 配 和 释放 过 程 本 身 就 会 受到 局 部 
性 作用 的 影响 。 同 等 条 件 下 ， 基 于 地 址 顺序 的 空闲 链表 分 配 可 能 提升 分 配器 访问 内 存 的 局 
部 性 ， 顺 序 分 配 天 然 的 线性 访问 模式 也 具有 和 较 高 的 高 速 缓存 友好 性 ， 同 时 也 可 以 在 分 配 时 进 
行 一 定 的 软件 预 取 [Appel，1997]， 但 对 于 某 些 硬件 而 言 ， 软 件 预 取 并 不 是 必要 的 8[Diwan 
等 ，1994]。 局 部 性 这 一 概念 还 会 以 另 一 种 完全 不 同 的 方式 影响 内 存 的 分 配 和 释放 : 如 果 一 
批 对 象 同 时 成 为 垃圾 ， 且 它们 在 堆 中 集中 排列 ， 则 当 回 收 完成 后 ， 它 们 所 占 的 空间 将 会 合 
成 一 个 单独 的 空闲 块 ， 从 而 最 大 限度 地 减少 了 内 存 碎 片 。 事 实证 明 ， 同 一 时 刻 分 配 的 对 象 通 
常 也 会 在 同一 时 刻 成 为 垃圾 ， 因 此 非 移 动 式 回收 需 所 面临 的 内 存 碎片 问题 比 人 们 预想 的 要 小 
[Hayes, 1991; Dimpsey 等 ，2000 ; Blackburn and McKinley，2008]， 这 同时 也 说 明 ， 将 连 
续 两 次 分 配 的 对 象 连续 排列 或 者 尽 可 能 靠近 排列 的 启发 式 方法 是 有 价值 的 。 如 果 某 次 内 存 分 
配 是 通过 拆 分 一 个 大 内 存 块 实现 的 ， 则 下 一 次 内 存 分 配 应 当 尽 可 能 使 用 同一 个 内 存 块 。 


7.6.6 ”拓展 块 保护 


一 般 情况 下 ， 堆 通常 是 由 一 大 块 连续 的 地 址 空间 所 组 成 的 ， 其 低地 址 边界 通常 与 程序 
的 代码 段 或 者 静态 数据 区 相 邻 ， 高 地 址 边界 之 外 的 地 址 空间 则 通常 会 保留 下 来 以 备 后 续 扩 
展 。 在 UNIX 系统 中 ， 这 一 边界 通常 被 称 为 “break”， 并 可 以 通过 sbrk 系统 调用 进行 扩 
展 或 者 收缩 。 该 边界 之 外 的 地 址 空间 通常 不 会 映射 到 虚拟 内 存 中 ， 因 此 堆 中 最 后 一 个 空闲 
内 存 块 便 具 有 了 可 扩展 性 ， 我 们 称 其 为 “未 使 用 空间 ” (unoccupied territory)， 或 者 拓展 块 
(wilderness). Korn 和 Vo[1985] 发 现 ， 如 果 将 拓展 块 作为 内 存 分 配 的 最 后 备 选 内 存 块 ， 则 有 
助 于 降低 内 存 碎 片 ， 这 一 策略 被 称 为 拓展 块 保 护 。 这 一 策略 同时 也 有 助 于 延缓 堆 的 增长 ， 进 
而 减少 整个 系统 的 资源 消耗 。 

O 这 一 策略 可 以 在 一 定 程度 上 避免 高 速 缓存 冲突 。 一 一 译 者 注 

© 某 些 硬件 可 以 探测 到 用 户 对 地 址 空间 的 线性 访问 模式 ， 进 而 自动 实现 硬件 预 取 。 一 一 译 者 注 
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7.6.7 ”跨越 映射 


某 些 回收 策略 或 者 赋值 器 写 屏障 需要 分 配器 对 跨越 映射 进行 额外 的 操作 。 跨 越 映射 反映 
了 堆 中 每 个 已 对 齐 的 2 片段 内 最 后 一 个 起 始 于 该 片段 的 对 象 的 地 址 。 与 堆 的 可 解析 性 相 结 
合 ， 回 收 器 或 赋值 器 写 屏 障 便 可 以 根据 对 象 内 部 的 某 一 地 址 快速 找到 该 对 象 的 起 始 地 址 ， 然 
后 进一步 访问 该 对 象 头 部 。11.8 节 将 讨论 跨越 映射 的 更 多 细节 。 


7.7 并 发 系统 中 的 内 存 分 配 


在 多 线程 环境 下 ， 分 配 过 程 的 许多 操作 都 需要 原子 化 以 确保 分 配 数据 结构 的 完整 性 ， 这 
些 操作 都 必须 使 用 原子 操作 或 者 锁 ， 但 这 样 一 来 ， 内 存 分 配 就 可 能 成 为 性 能 瓶颈 。 最 基本 的 
解决 方案 是 为 每 个 线程 开辟 独立 的 内 存 分 配 空间 ， 如 果 某 个 线程 的 可 分 配 空间 耗 尽 ， 则 从 全 
局 内 存 池 中 为 其 分 配 一 个 新 的 空闲 块 ， 此 时 只 有 与 全 局 内 存 池 的 交互 才 需 要 原子 化 。 不 同 线 
程 的 内 存 分 配 频 度 可 能 不 同 ， 因 此 如 果 在 为 线程 分 配 内 存 块 时 使 用 自 适应 算法 ( 即 : 为 分 配 
速度 较 慢 的 线程 分 配 较 小 的 内 存 块 ， 而 为 分 配 速度 较 快 的 线程 分 配 较 大 的 内 存 块 )， 则 程序 
的 时 间 和 空间 性 能 均 可 获得 提升 。Dimpsey 等 [2000] 声称 ， 在 多 处 理 器 Java 系统 中 ， 为 每 
个 线程 配备 一 个 合适 的 本 地 分 配 缓冲 区 (local allocation buffer, LAB) 可 以 大 幅 提升 性 能 9。 
他 们 进一步 指出 ， 由 于 几乎 所 有 的 小 对 和 象 都 是 从 本 地 分 配 缓冲 区 分 配 的 ， 因 而 我 们 有 理由 对 
全 局 (基于 空闲 链表 的 ) 分 配器 进行 调整 ， 以 使 其 能 够 更 加 高 效 地 分 配 用 于 线程 本 地 分 配 组 
冲 区 的 内 存 块 。 

Garthwaite 等 [2005] 讨论 了 如 何 对 本 地 分 配 缓冲 区 的 大 小 进行 自 适应 调整 ， 他 们 同时 
发 现 ， 将 本 地 分 配 缓冲 区 与 处 理 器 而 非 线 程 相关 联 效果 更 佳 。 该 算法 通过 如 下 方式 对 本 地 分 
配 缓冲 区 的 大 小 进行 调整 : 线程 初次 申请 本 地 分 配 缓冲 区 时 将 获得 24 个 字 ( 94 字 节 ) 的 内 
存 块 ， 之 后 每 次 新 申请 的 内 存 块 均 为 上 一 次 的 1.5 倍 ， 同 时 每 经 历 一 次 垃圾 回收 过 程 ， 回 收 
器 都 会 将 线程 的 本 地 分 配 缓冲 区 的 大 小 折 半 。 该 算法 同时 也 会 根据 不 同 线程 的 分 配 次 数 调整 
年 轻 代 的 空间 大 小 。 每 处 理 器 (per-processor) 本 地 分 配 缓 冲 区 的 实现 依赖 于 多 处 理 器 的 可 
重启 临界 区 (restartable critical section), Garthwaite 等 人 对 此 做 了 介绍 。 其 基本 原理 是 ， 线 
程 可 以 判断 自身 是 否 被 抢占 (preempt) 或 者 被 重新 调度 (reschedule)， 然 后 可 以 据 此 判断 自 
身 是 否 被 切换 到 其 他 处 理 器 上 运行 。 当 线程 抢占 发 生 时 ， 处 理 器 会 对 某 个 本 地 寄存 器 进行 修 
改 ， 该 操作 会 为 抢占 完成 后 的 写 人 操作 设置 一 个 陷阱 ， 而 陷阱 处 理 函 数 则 会 重启 被 中 断 的 分 
配 过 程 。 尽 管 每 处 理 需 本 地 分 配 缓冲 区 需要 更 多 的 指令 支持 ， 但 与 每 线程 本 地 分 配 缓冲 区 相 
比 ， 其 分 配 时 延 相 同 ， 且 不 需要 复杂 的 缓冲 区 调整 机 制 。Garthwaite 同时 发 现 ， 当 线程 数量 
较 少 时 《特别 是 当 线程 数量 小 于 处 理 器 数量 时 )， 每 线程 (per-thread) 本 地 分 配 缓冲 区 的 性 能 
较 好 ， 而 在 线程 数量 较 多 的 情况 下 ， 每 处 理 器 本 地 分 配 缓冲 区 的 表现 更 佳 ， 因 此 他 们 将 系统 
设计 成 可 在 两 种 方案 之 间 进 行动 态 切 换 。 

本 地 分 配 缓冲 区 通常 使 用 顺序 分 配 策略 。 每 个 线程 (或 处 理 器 ) 也 可 以 独立 维护 自身 对 
应 的 分 区 适应 空闲 链表 ， 同 时 使 用 增 量 清 扫 策 略 。 线 程 在 内 存 分 配 过 程 中 会 执行 增 量 清扫 ， 
并 将 清扫 所 得 的 空闲 内 存单 元 添加 到 自身 空闲 链表 中 ， 但 Berger 等 [2000] 指出 ， 如 果 将 该 


O 还 有 一 些 学 者 使 用 线程 本 地 堆 (thread-local heap) 这 一 术语 。 在 本 书 中 ,“ 本 地 分 配 缓冲 区 ”这 一 术语 主要 强 
调 的 是 线程 之 间 相 互 隔离 的 内 存 分 配 ， 而 “线程 本 地 堆 ” 这 一 概念 在 则 偏重 于 相互 隔离 的 分 区 回收 。 因 此 ， 
“线程 本 地 堆 ” 几 乎 必然 是 “本 地 分 配 缓冲 区 "， 反 之 则 不 一 定 成 立 。 
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算法 用 于 显 式 内 存 管理 会 存在 一 些 问 题 。 例 如 ， 在 某 一 使 用 生产 者 - 消费 者 模型 的 程序 中 ， 
消息 对 象 通常 由 生产 者 创建 并 由 消费 者 释放 ， 因 此 两 个 线程 之 间 将 会 产生 单方 向 的 内 存 转 
移 。 在 垃圾 回收 环境 下 通常 不 会 存在 这 一 问题 ， 因 为 回收 器 可 以 将 空闲 内 存 释 放 到 全 局 内 存 
池 中 。 如 果 使 用 增 量 清扫 ， 空 闲 内 存单 元 将 被 执行 清扫 的 线程 所 获取 ， 从 而 自然 地 将 回收 所 
得 的 内 存 返 还 给 分 配 最 频繁 的 线程 。 


7.8 需要 考虑 的 问题 


对 于 垃圾 回收 系统 中 内 存 分 配器 的 设计 ， 有 几 个 特别 值得 注意 的 问题 : 分 配 算法 的 设计 
绝 不 能 独立 于 回收 算法 而 进行 ; 标记 -清扫 等 非 移动 式 回收 器 或 多 或 少 都 会 依赖 基于 空闲 链 
表 的 分 配 策略 ， 但 在 10.3 节 我 们 将 看 到 与 顺序 分 配 相 结合 的 实现 方式 ; 某 些 线程 本 地 分 配 
缓冲 区 也 会 使 用 顺序 分 配 与 标记 - 清扫 回收 相 结合 的 分 配 策略 ; 复制 式 与 整理 式 回 收 通 常 使 
用 简单 上 且 快速 的 顺序 分 配 策略 ， 与 分 区 适应 空闲 链表 分 配 相 比 ， 其 速度 较 快 ， 而 更 重要 的 
是 ,顺序 分 配 实现 的 简单 性 通常 意味 着 更 高 的 可 靠 性 。 

如 果 在 使 用 标记 -清扫 策略 的 同时 ， 偶 尔 或 者 在 极端 情况 下 进行 堆 整理 以 消除 内 存 
碎片 ， 那 么 在 整理 完成 后 ， 回 收 需 需 要 更 新 相关 的 分 配 数据 结构 以 反映 最 新 的 内 存 分 布 
情况 。 

使 用 额外 的 位 图 表 来 标记 内 存 颗粒 的 状态 〈 空 闲 /已 分 配 ) 以 及 内 存单 元 /对象 的 起 始 
地 址 ， 不 仅 能 提升 程序 的 鲁 棒 性 ， 而 且 可 以 简化 对 象 头 部 的 设计 。 该 策略 同时 可 以 加 速 回收 
器 的 操作 ， 并 可 以 在 存储 器 层次 结构 方面 提升 回收 需 的 性 能 。 基 于 位 图 的 分 配 策略 空间 开销 
不 大 ， 但 其 分 配 过 程 通常 会 存在 额外 的 时 间 开 销 。 

基于 内 存 块 的 分 配 可 以 在 具体 的 编程 语言 实现 〈 例 如 每 个 内 存 块 中 仅 分 配 一 种 类 型 的 对 
象 ) 以 及 回收 器 元 数据 两 个 方面 减少 每 个 对 象 的 开销 ， 但 这 一 优势 可 能 会 被 内 存 块 中 的 闲置 
空间 以 及 无 法 使 用 的 空间 所 抵消 。 对 于 使 用 多 种 不 同 的 分 配 策略 和 回收 策略 来 管理 多 个 内 存 
空间 的 场景 ， 基 于 内 存 块 的 分 配 通常 可 以 较 好 地 发 挥 作 用 。 

分 区 适应 分 配 通 常会 比 基 于 单个 空闲 链表 的 分 配 要 快 ， 对 于 垃圾 回收 系统 而 言 ， 这 一 点 
尤为 重要 ， 因 为 基于 垃圾 回收 的 程序 通常 会 比 基 于 显 式 内 存 管理 的 程序 使 用 更 多 的 动态 内 存 
分 配 。 

垃圾 回收 系统 中 的 对 象 通常 成 能 回收 ， 因 此 针对 显 式 内 存 管理 系统 设计 的 相 邻 空闲 内 存 
单元 合并 策略 便 不 再 必要 。 标 记 -清扫 回收 可 以 在 清扫 阶段 快速 重建 空闲 链表 。 对 于 整理 式 
回收 器 而 言 ， 一 次 整理 完成 后 ， 堆 中 通常 只 会 存在 一 个 用 于 顺序 分 配 的 大 内 存 块 。 复 制式 回 

002] ” 收 则 会 将 一 个 半 区 整体 释放 ， 从 而 无 需 对 单个 内 存单 元 进行 回收 。 
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到 目前 为 止 我 们 都 假定 垃圾 回收 以 这 样 的 方式 进行 : 所 有 的 对 象 是 由 相同 的 垃圾 回收 算 
法 管理 的 ， 并 且 所 有 垃圾 将 在 同一 时 间 得 到 回收 。 然 而 这 个 假设 并 不 是 必须 的 ， 如 果 我 们 对 
不 同 的 对 象 加 以 区 别 对 待 的 话 ， 在 回收 处 理 的 性 能 上 将 得 到 相当 大 的 好 处 。 最 广为人知 的 例 
子 就 是 所 谓 “ 分 代 回 收 算法 ”(generational collection) [Lieberman and Hewitt, 1983; Ungar, 
1984]， 该 算法 将 对 象 按 不 同 的 年 龄 (age) 进行 分 隔 ， 并 优先 回收 更 年 轻 的 对 象 。 有 很 多 理 
由 可 以 证 明 ， 对 不 同类 别 的 对 象 进 行 差异 化 处 理 的 方法 是 有 益 的 。 其 中 部 分 理由 可 能 会 与 用 
于 管理 这 些 对 象 的 回收 器 技术 有 关 。 正 如 前 面 章节 中 我 们 所 看 到 的 那样 ， 对 象 的 管理 既 可 以 
采用 直接 算法 (如 引用 计数 )， 也 可 以 采用 间接 算法 ， 即 追踪 算法 来 完成 。 追 踪 算 法 可 能 会 
移动 对 象 (标记 一 整理 算法 或 复制 算法 )， 也 可 能 不 移动 (标记 一 清扫 算法 )。 于 是 我 们 会 考 
虑 是 否 硕 望 垃 圾 回收 器 移动 不 同类 别 的 对 象 ， 如 果 是 ， 如 何 移动 它们 为 佳 。 我 们 可 能 希望 能 
够 依照 对 象 的 地 址 快速 判断 出 应 当 对 其 使 用 何 种 回收 或 分 配 算法 。 最 一 般 的 情况 是 ， 我 们 可 
能 希望 区 分 何 时 回收 不 同类 别 的 对 象 。 


8.1 术语 


区 分 那些 我 们 想 把 某 些 特定 的 内 存 管 理 策略 应 用 其 上 的 对 象 集合 是 有 用 的 ， 同 时 我 们 也 
可 以 使 用 一 些 机 制 来 更 有 效 地 实现 这 些 内 存 管 理 策略 。 我 们 将 使 用 术语 “空间 ”来 表示 那 
些 使 用 相同 处 理 方法 的 对 象 的 逻辑 集合 。 一 个 空间 可 能 会 使 用 一 个 或 多 个 地 址 空间 中 的 内 存 
块 。 所 有 的 块 都 是 连续 的 ， 大 小 通常 为 2 的 整数 次 宕 ， 并 按 2 的 整数 次 寡 地 址 对 齐 。 
8.2 为 何 要 进行 分 区 

将 堆 分 割 成 几 个 分 区 ， 每 个 分 区 采用 不 同 管理 策略 或 不 同 机 制 的 做 法 通常 是 有 效 的 。 这 
些 想法 最 初出 现在 Bishop 的 那些 很 有 影响 力 的 论文 [1977] 中 。 使 用 内 存 分 区 处 理 的 原因 包 
括 对 象 的 移动 性 、 大 小 、 更 低 的 空间 消耗 、 更 简单 的 对 象 性 质 识别 、 垃 圾 回收 效率 的 改善 、 


停顿 时 间 的 降低 、 更 好 地 实现 局 部 性 等 。 在 我 们 考虑 特定 的 垃圾 回收 模型 和 利用 堆 内 存 划分 
方法 来 进行 对 象 管 理 之 前 ， 我 们 先 来 检验 一 下 这 些 原因 。 


8.2.1 根据 移动 性 进行 分 区 


在 一 个 混合 回收 器 (hybrid collector) 中 ,识别 哪些 对 象 可 移动 ， 哪 些 对 象 不 能 移动 或 
移动 代价 很 大 是 十 分 必要 的 。 当 运行 时 系统 和 编译 器 之 间 缺 乏 沟通 或 者 一 个 对 象 被 传 给 了 操 
作 系 统 〈 例 如 ， 一 个 IO 缓冲 区 ) 时 ， 对 象 就 很 有 可 能 无 法 移动 。Chase[1987，1988] 指出 异 
步 移 动 对 象 可 能 还 会 不 利于 编译 器 的 优化 。 为 了 移动 一 个 对 象 ， 我 们 必须 能 够 找到 所 有 指向 
这 个 对 象 的 引用 ， 以 便 将 每 一 个 引用 改 为 指向 对 象 的 新 位 置 。 相 反 地 ， 如 果 回 收 过 程 是 不 移 
动 对 象 的 ， 则 追踪 式 回收 器 只 需要 找到 至 少 一 个 引用 就 足够 了 。 因 此 ， 当 一 个 引用 被 传 给 


日 ”找到 至 少 一 个 引用 说 明 该 对 象 不 是 垃圾 。 一 一 译 者 注 
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一 个 根本 不 关心 垃圾 回收 的 程序 库 ( 例 如 ， 传 给 Java 的 原生 接口 ) 的 时 候 ， 该 对 象 就 不 能 被 
移动 了 。 此 时 ， 要 么 这 个 对 象 必须 被 钉 住 (pinned)， 要 么 我 们 必须 保证 对 象 在 被 程序 库 访问 
期 间 垃圾 回 动作 收 不 能 在 其 空间 中 执行 。 

那些 因为 所 指 对 象 被 移动 而 必须 被 更 新 的 引用 包含 了 根 集合 中 的 元 素 。 然 而 确定 根 引 用 
与 待 移动 对 象 之 间 精 确 的 映射 关系 对 构建 托管 语言 与 其 运行 时 环境 之 间 的 接口 来 说 是 一 个 
更 富 挑战 性 的 工作 。 我 们 将 在 第 11 章 再 详细 讨论 这 块 内 容 。 最 初 实现 的 流程 通常 是 保守 地 
扫描 根 集合 〈 线 程 栈 和 寄存 器 )， 而 不 是 构建 一 个 栈 帧 槽 〈 stack frame slot) 等 与 其 所 含 对象 
引用 之 间 的 类 型 精确 〈type-accurate) 的 映射 。 当 编译 器 (例如 ，C 和 C++ 编译 器 ) 不 能 提 
供 精 确 类 型 信息 时 更 是 如 此 。 保 守 式 栈 扫描 [Boehm and Weiser, 1988] 将 每 一 个 栈 帧 中 的 醒 
(slot) 都 当 作 一 个 潜在 的 索引 项 ， 并 使 用 一 些 测试 来 丢弃 那些 不 可 能 是 指针 的 值 (例如 ， 那 
些 超 出 堆 内 存 范 围 的 值 或 指向 的 位 置 没 分 配 任何 对 象 )。 由 于 保守 的 栈 扫描 标明 了 一 个 栈 中 
所 含有 的 真实 指针 槽 的 超 集 ， 所 以 改变 这 些 槽 里 的 数据 就 是 不 可 能 的 了 (因为 我 们 可 能 会 在 
不 经 意 之 间 更 改 某 一 整数 ， 而 这 个 整数 可 能 刚好 就 是 一 个 指针 )。 因 此 保守 的 垃圾 回收 算法 
不 能 移动 任何 被 根 直 接 引 用 的 对 象 。 然 而 如 果 可 以 适当 地 给 出 堆 中 对 象 的 一 些 信息 (可 以 不 
必 是 完整 的 类 型 信息 )， 一 个 主体 复制 (mostly-copying) 垃圾 回收 器 就 可 以 安全 地 移动 除了 
模糊 根 (ambiguous roots) 集合 [Bartilett，1988a] 直接 可 达 的 对 象 之 外 的 任何 对 象 。 


8.2.2 ”根据 对 象 大 小 进行 分 区 


在 某 些 情况 下 移动 对 象 可 能 是 不 合适 的 〈 但 并 非 不 能 移动 )。 例 如 ， 移动 大 对 象 的 代价 
可 能 比 因 不 移动 它们 所 产生 碎片 的 代价 更 大 。 一 个 常用 的 策略 是 ， 将 大 小 超过 特定 阔 值 的 对 
象 分 配 到 一 个 专门 的 大 对 象 空间 (large object space, LOS) 里 去 。 我 们 在 之 前 的 章节 中 已 经 
看 到 过 分 区 适应 分 配器 是 如 何 区 别 对 待 大 对 象 和 小 对 象 的 。 大 对 象 通常 被 放置 在 独立 的 内 存 
页 (所 以 大 对 象 的 尺寸 至 少 应 该 是 内 存 页 大 小 的 一 半 )， 并且 通过 一 个 像 “ 标 记 一 清扫 ”这 
样 不 移动 对 象 的 回收 器 来 进行 管理 。 值 得 注意 的 是 ， 通 过 将 对 象 放置 到 它们 的 专属 内 存 页 ， 
我 们 既 可 以 使 用 Baker 的 转 轮 (treadmill) 回收 器 [1992]， 也 可 以 通过 重新 映射 虚拟 内 存 页 
的 方式 [Withington，1991] 来 实现 虚拟 “复制 ”。 


8.2.3 为 空间 进行 分 区 


对 象 隔 离 在 减少 堆 空间 的 整体 需求 方面 可 能 很 有 用 。 在 一 个 由 支持 快速 分 配 并 提供 良好 
空间 局 部 性 ( 当 一 个 对 象 序列 被 分 配 并 初始 化 的 时 候 ) 的 策略 管理 之 下 的 空间 中 创建 对 象 是 
十 分 可 取 的 做 法 。Blackburn 等 [2004a] 证 明 连 续 分 配 和 空闲 链表 这 两 种 内 存 分 配方 法 之 间 
的 代价 差异 是 非常 小 的 (只 占 总 执行 时 间 的 1%)， 两 者 之 间 真 正 的 差异 主要 是 由 两 种 分 配方 
法 对 局 部 性 改进 程度 的 二 阶 效应 (second order effect of improved locality) 决定 的 。 特 别 是 
对 年 轻 对 象 ， 如 果 把 它们 按照 分 配 顺 序 排列 ， 将 会 为 其 带 来 一 些 额 外 的 好 处 。 

复制 和 滑动 回收 器 都 可 以 消除 碎片 并 允许 顺序 内 存 分 配 。 但 是 复制 式 回收 器 需要 的 地 址 
空间 是 非 移 动 式 回 收 器 的 两 倍 ， 而 标记 -整理 回收 方式 则 相对 较 慢 。 因 此 将 对 象 进行 隔离 通 
常 是 有 益 的 ， 这 样 便于 让 不 同 的 内 存 管理 器 来 管理 不 同 的 内 存 空间 。 对 于 那些 生命 周期 较 长 
并 且 内 存 碎 片 对 其 并 非 急 需 处 理 的 对 象 来 说 ， 我 们 可 以 将 其 保存 在 一 个 主要 是 非 移动 操作 、 


O ”除了 把 对 象 引用 直接 传 给 程序 库 之 外 ， 将 一 个 由 垃圾 回收 器 注册 的 、 以 便 在 必要 时 进行 更 新 的 间接 引用 (或 
句柄 ) 传 给 程序 库 也 是 一 个 可 选 方案 。 这 种 方法 现 是 Java 原生 接口 的 标准 解决 方案 。 
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偶尔 会 进行 某 趟 扫描 来 整理 的 空间 里 面 。 而 那些 分 配 频 率 、 死 亡 率 更 高 的 对 象 则 可 以 放 到 一 
个 由 分 配 速度 快 且 回收 代价 小 的 复制 式 回收 器 管理 的 空间 中 去 (相对 于 此 类 存活 对 象 的 数量 
比例 来 说 ， 回 收 代 价 相对 较 低 )。 需 要 注意 的 是 ， 为 大 对 象 预 留 复 制 空 间 的 高 昂 代 价 是 我 们 
采用 非 复 制式 回收 器 来 管理 大 对 象 空间 的 一 个 更 深层 次 因素 。 


8.2.4 根据 类 别 进 行 分 区 


将 不 同类 别 的 对 象 进行 物理 隔离 可 以 让 “类 型 ”这 样 的 属性 通过 对 象 地 址 就 可 以 简单 地 
识别 出 来 ， 而 无 需 获 取 对 象 某 一 字段 的 值 或 更 糟 的 是 去 追踪 一 个 指针 。 除 此 之 外 ， 这 样 做 
还 有 以 下 几 点 好 处 。 首 先 ， 这 种 做 法 充分 利用 了 高 速 缓存 的 优势 ， 因 为 它 消除 了 加 载 更 多 字 
段 的 必要 性 〈 特 别 地 ， 当 某 一 特定 类 别 对 象 的 位 置 为 静态 时 ， 地 址 之 间 的 比较 可 对 应 于 一 个 
编译 期 的 常量 )。 其 次 ， 通 过 属性 来 进行 对 象 隔离 ， 把 所 有 共享 相同 属性 的 对 象 放 置 在 相同 
的 连续 内 存 块 中 ， 我 们 就 可 以 对 空间 进行 基于 地 址 的 快速 识别 ， 同 时 此 举 也 使 得 空间 和 对 象 
属性 关联 了 起 来 ， 而 不 用 将 相同 的 属性 值 在 每 个 对 象 的 头 部 复制 一 份 。 最 后 ， 对 象 的 类 别 对 
于 某 些 回收 器 来 说 是 非常 关键 的 。 那 些 不 含 指针 的 对 象 是 不 需要 被 追踪 式 回 收 右 扫描 的 。 鉴 
于 处 理 一 个 大 型 指针 数组 的 开销 很 可 能 是 由 移动 指针 而 不 是 像 移 动 对 象 这 样 的 开销 决定 的 ， 
所 以 将 大 型 的 与 指针 无 关 的 对 象 保存 在 它们 自己 独立 的 空间 里 是 有 益 的 。 当 大 型 压缩 位 图 
(compressed bitmaps) 成 为 伪 指针 (false pointers) 的 一 个 经 常 性 来 源 时 ， 如 果 把 这 些 位 图 放 
到 一 个 永远 也 不 会 被 扫描 的 区 域 ， 保 守 式 垃圾 回收 器 会 因此 受益 [Boehm，1993]。 如 果 将 那 
些 不 可 能 成 为 垃圾 环 路 ( garbage cycle) 备 选 根 的 天 生 非 循环 (inherently acyclic) 对 象 隔离 
保存 的 话 ， 可 回收 循环 引用 垃圾 的 追踪 回收 器 将 因此 获 益 。 

虚拟 机 通常 在 堆 内 存 中 生成 并 保存 代码 序列 (code sequence)。 移 动 和 清理 代码 会 有 一 
些 特殊 的 问题 ， 如 确定 和 保持 一 致 性 、 代 码 的 引用 或 确定 代码 何 时 不 再 使 用 并 因此 可 以 被 外 
载 (注意 类 的 重新 载 人 通常 并 不 透明 ， 因 为 类 可 能 是 有 状态 的 )。 代 码 对 象 也 通常 是 体积 庞 
大 且 长 寿 的 。 由 于 这 些 原 因 ， 不 迁移 代码 对 象 通常 是 可 取 的 做 法 [Reppy，1993]， 同 时 也 可 
将 印 载 代码 作为 针对 特定 应 用 程序 的 特殊 情况 来 考虑 。 


8.2.5 为 效益 进行 分 区 


进行 对 象 隔离 最 著名 的 理由 是 要 充分 利用 对 象 统计 信息 。 某 些 对 象 从 构建 出 来 开始 到 
程序 结束 一 直 被 使 用 而 另 一 些 对 象 的 生命 周期 却 很 短 ， 这 种 现象 很 常见 。 早 在 1976 年， 
Deutsch 和 Bobrow 就 发 现 “统计 显示 ， 新 分 配 的 数据 很 可 能 是 要 么 被 “敲定 ， 要 么 在 相对 
较 短 的 时 间 内 被 抛弃 ” 。 在 Java 程序 中 ， 一 种 十 分 普遍 的 现象 是 大 多 数 分 配点 (allocation 
point) 所 创建 的 对 象 的 寿命 符合 双 峰 (bimodal) 寿命 分 布 [Jones and Ryder，2008]。 大 量 
研究 已 经 证 实 ， 很 多 (而 非 全 部 ) 应 用 程序 中 对 象 的 生命 周期 特征 满足 弱 分 代 假 说 ( weak 
generational hypothesis)， 即 “大 多 数 对 象 都 在 年 轻 时 死亡 ”[Ungar，1984]。 无 论 是 分 代 还 
是 准 分 代 (quasi-generational)， 众 多 垃圾 回收 策略 的 着 眼 点 是 将 回收 的 重点 集中 到 那些 最 有 
可 能 成 为 垃圾 的 对 象 上 面 ， 以 达到 花费 最 少 的 努力 来 尽量 多 地 清理 存储 空间 的 目的 。 

如 果 对 象 生命 周期 的 分 布 是 足够 偏 斜 的 ， 则 反复 清理 一 个 (或 多 个 ) 堆 内 存 的 子 集 而 非 
整个 内 存 就 是 值得 的 [Baker，1993]。 

例如 ， 分 代 的 垃圾 回收 器 通常 在 每 次 回收 整个 堆 之 前 就 已 经 对 堆 中 的 某 一 空间 (新 生 代 
或 幼儿 区 ) 进行 了 多 次 回收 。 需 要 注意 的 是 ， 这 里 面 有 一 个 权衡 的 考虑 : 由 于 不 用 在 每 次 回 
收 过 程 中 都 追踪 整个 堆 ， 所 以 回收 器 将 允许 一 些 垃圾 不 被 清理 (在 堆 中 漂浮 )。 这 就 意味 着 ， 
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分 配 新 对 象 时 系统 的 可 用 空间 是 小 于 其 应 有 大 小 的 ， 因 此 垃圾 回收 器 也 会 比 在 理想 情况 下 调 
用 得 更 频繁 。 更 进一步 ， 正 如 我 们 稍 后 会 看 到 的 那样 ， 将 堆 内 存 分 隔 为 已 回收 空间 和 未 回收 
空间 将 会 使 赋值 器 和 回收 器 增加 更 多 短 记 管理 的 负担 ， 但 倘若 被 选 为 进行 回收 操作 的 空间 中 
的 对 象 存 活 率 足 够 低 的 话 ， 分 隔 回收 策略 可 能 会 非常 有 效 。 
8.2.6 为 缩短 停顿 时 间 进 行 分 区 

对 于 一 个 追踪 式 回 收 器 来 说 ， 回 收 操作 的 代价 主要 取决 于 需要 进行 追踪 的 存活 对 象 的 
数量 。 如 果 使 用 复制 式 回 收回， 则 清理 操作 的 代价 仅 依赖 于 存活 对 象 的 数量 ， 甚 至 在 标 
记 一 清扫 回收 器 中 ， 追 踪 操 作 的 代价 也 远 超 清扫 操作 。 通 过 限制 回收 器 需要 追踪 的 定罪 空间 
(condemned space) 的 大 小 ， 我 们 就 可 以 限定 需要 清理 或 标记 的 对 象 的 数量 ， 从 而 控制 垃圾 
回收 所 需 的 时 间 。 在 一 个 需要 万 物 静止 的 回收 器 中 ， 这 样 做 就 意味 着 可 以 缩短 停顿 时 间 。 不 
幸 的 是 ， 回 收 堆 内 存 的 一 个 子 集 改 善 的 仅仅 是 预期 的 时 间 ， 因 为 对 某 个 单一 的 空间 回收 之 后 
所 返回 的 空闲 内 存 可 能 仍 无 法 让 计算 过 程 继续 进行 ， 所 以 还 是 需要 回收 整个 堆 。 因 此 ， 一般 
而 言 ， 分 区 回收 不 能 降低 最 坏 情 况 下 的 停顿 时 间 。 

在 某 些 极端 情况 下 ， 分 区 策略 可 以 使 一 个 空间 能 够 在 常数 时 间 内 被 清理 完 。 如 果 一 个 定 
罪 区 域 中 的 所 有 对 象 从 该 区 域 之 外 都 是 不 可 达 的 ， 则 对 于 回收 器 来 说 ， 清 理 该 区 域 时 不 需 
要 进行 任何 追踪 工作 : 该 区 域 所 占 内 存 可 以 被 一 并 返回 给 分 配器 。 要 判定 一 个 区 域 是 不 可 达 
的 ， 需 要 将 合适 的 对 象 访 问 规则 与 堆 结构 (例如 有 界 区 域 的 栈 ) 有 机 地 结合 起 来 。 正 确 使 用 
的 责任 通常 全 都 落 在 程序 员 身 上 (正如 Java 的 实时 规范 中 定义 的 那样 ) 。 然 而 ， 如 果 能 给 一 
个 类 似 ML 这 样 合适 的 语言 ， 这 些 区 域 还 是 可 以 被 自动 推断 出 来 的 [Tofte and Talpin, 1994]. 
通过 一 个 允许 对 某 些 类 型 和 区 域 引用 进行 推断 的 复杂 的 类 型 系统 ，C 语言 的 扩展 Cyclone 可 
以 有 效 地 减轻 程序 员 的 负担 [Grossman 等 ，2002]。 


8.2.7 为 局 部 性 进行 分 区 


随 着 内 存 层级 变 得 日 益 复 杂 (更 多 的 层级 、 多 CPU 核心 、 多 插 权 ， 以 及 非 一 致 性 内 存 
访问 )， 局 部 性 对 于 性 能 的 重要 性 不 断 增 加 。 简 单 的 回收 器 与 虚拟 内 存 和 高 速 缓存 的 交互 往 
往 比 较 差 。 作 为 追踪 动作 的 一 部 分 ， 追 踪 式 回收 带 需 要 接触 每 一 个 存活 对 象 。 标 记 一 清扫 回 
收 器 同样 可 能 需要 接触 已 经 死亡 的 对 象 。 复 制式 回收 器 则 可 能 会 接触 每 一 个 堆 内 存 页 ， 即 使 
在 任意 时 间 点 只 有 一 半 的 内 存 是 用 来 保存 存活 对 象 的 。 

研究 人 员 长 期 争论 的 一 个 问题 是 ， 垃 圾 回收 器 不 应 该 只 是 简单 地 用 来 清理 垃圾 ， 还 应 该 
用 来 改善 整个 系统 的 局 部 性 [Fenichel and Yochelson，1969 ; White，1980]。 我 们 在 第 4 章 
已 经 看 到 如 何 改变 复制 式 回 收 器 的 遍历 顺序 ， 以 便 通过 父子 对 象 共 置 的 方式 提高 赋值 器 的 局 
部 性 。 分 代 回 收 器 可 以 使 回收 器 和 赋值 器 的 局 部 性 都 得 到 进一步 的 改善 。 该 回收 器 得 益 于 
将 大 部 分 精力 集中 在 堆 的 某 一 个 分 区 上 ， 这 种 做 法 有 利于 用 最 小 的 代价 获取 最 多 的 空闲 空 
间 。 减 少 工作 集 的 大 小 对 于 赋值 器 也 是 有 益 的 ， 因 为 年 轻 对 象 的 变化 率 通常 比 老 对 象 要 高 
[Blackburm 等 ，2004]。 


8.2.8 根据 线程 进行 分 区 


垃圾 回收 动作 需要 在 赋值 器 线程 和 回收 器 线程 之 间 进 行 同 步 。 对 于 每 次 只 需 中 止 不 超 
过 一 个 赋值 器 线程 的 即时 回收 (on-the-fly collection )， 其 可 能 需要 一 个 与 其 他 赋值 器 线程 进 
行 握手 同步 的 复杂 系统 才能 实现 ， 而 即使 是 万 物 静 止 的 回收 算法 也 需要 通过 同步 来 中 止 所 
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有 赋值 器 线程 的 运行 。 如 果 我 们 每 次 只 中 止 一 个 线程 ， 并 仅 回 收 由 该 线程 分 配 的 且 尚 不 能 
从 其 他 线程 可 达 的 那些 对 象 ， 则 同步 代价 是 可 以 减少 的 。 为 了 做 到 这 一 点 ， 回 收 器 必须 能 
人 够 区 分 出 哪些 对 象 是 仅 单 个 线程 可 访问 的 而 哪些 对 象 是 被 多 个 线程 共享 的 ， 例 如 可 以 使 用 
线程 本 地 子 堆 (heaplet) 进行 分 配 [Doligez and Leroy，1993 ; Doligez and Gonthier，1994 ; 
Steensgaard, 2000; Jones and King, 2005]. 

在 一 个 更 大 的 粒度 上 ， 识 别 访问 特定 任务 的 对 象 可 能 是 有 用 的 ， 其 中 的 “任务 ”是 由 
一 个 互相 协作 的 线程 集合 组 成 的 。 例 如 ， 一 个 服务 器 上 可 能 有 多 个 应 用 程序 在 运行 ， 而 每 
一 个 应 用 程序 通常 要 求 它们 自己 的 虚拟 机 整个 被 载 人 并 初始 化 。 与 此 相反 ， 多 任务 虚拟 机 
( multi-tasking virtual machine，MVM) 则 允许 多 个 应 用 程序 (任务 ) 在 单个 多 任务 虚拟 机 中 
运行 [Palacz 等 ，1994 ; Soman 等 ，2006、2008 ; Wegiel and Krintz，2008]。 我 们 需要 小 心 
谨慎 ， 以 确保 不 同 的 任务 不 能 直接 (访问 其 他 任务 的 数据 ) 或 间接 地 (拒绝 其 他 任务 对 如 内 
存 、CPU 时 间 等 系统 资源 的 公平 访问 ) 影响 对 方 。 若 能 既 不 干扰 其 他 任务 〈 例 如 ， 不 需要 运 
行 垃圾 回收 )， 又 能 在 完成 之 后 将 与 本 任务 相关 的 所 有 资源 释放 掉 就 更 好 了 。 通 过 将 属于 不 
同 线程 的 非 共享 数据 进行 分 隔 ， 所 有 这 些 问题 的 处 理 都 能 得 到 简化 。 


8.2.9 根据 可 用 性 进行 分 区 


我 们 不 希望 接触 其 他 线程 可 达 对 象 的 一 个 原因 是 为 了 降低 同步 开销 。 然 而 ， 我 们 可 能 也 
希望 将 对 象 按 用 途 分 区 ， 因 为 回收 器 可 能 会 根据 对 象 的 物理 分 布 采取 不 同 的 处 理 策略 。Xian 
等 [2007] 观察 到 ， 在 一 个 应 用 程序 服务 器 中 ， 作 为 客户 端 请 求 的 一 部 分 而 初始 化 的 远程 对 
象 往往 比 本 地 对 象 存活 的 时 间 更 长 ; 扩展 Sun 的 HotSpot 分 代 回 收 器 来 识别 并 专门 处 理 这 些 
对 象 ， 可 以 有 效 提高 服务 器 的 工作 负载 。 更 一 般 地 ， 在 一 个 由 分 布 式 垃圾 回收 管理 的 系统 
中 ， 最 好 能 够 用 不 同 的 策略 和 机 制 来 管理 远程 和 本 地 的 对 象 与 引用 ， 因 为 访问 远程 对 象 的 代 
价 比 访问 本 地 对 象 大 几 个 数量 级 。 

分 布 式 并 不 是 导致 对 象 访问 代价 不 一 致 的 唯一 因素 。 之 前 我 们 花 了 很 大 精力 研究 追踪 
式 回 收 器 如 何 最 小 化 高 速 缓存 不 命中 的 代价 。 高 速 缓存 不 命中 的 代价 可 能 是 几 百 个 时 钟 周 
期 ， 而 访问 一 个 所 在 内 存 页 被 交换 出 去 的 对 象 的 代价 将 是 几 百 万 个 时 钟 周期 。 对 于 一 个 早期 
的 分 代 回 收 器 来 说 ， 避 免 频繁 缺 页 是 需要 优先 解决 的 问题 ， 时 至 今日 ， 导 致 频繁 换 页 的 配置 
可 能 会 被 认为 是 在 进行 不 可 救 药 的 破坏 2 。 物 理 页 的 组 织 (在 内 存 中 或 换 出 了 ) 可 以 被 认为 是 
另 一 种 形式 的 堆 分 区 ， 是 一 个 切实 可 资 利 用 的 特性 。 书 签 ( Bookmarking) 回收 器 [Hertz 等 ， 
2005] 通过 与 虚拟 内 存 系统 配合 协作 ， 来 改进 对 于 被 换 出 页 的 选择 (从 回收 器 视角 )， 并 使 回 
收 器 可 以 在 无 需 访 问 非 驻 留 内 存 页 里 对 象 的 情况 下 完成 追踪 操作 。 

同样 地 ， 非 一 致 内 存 访问 的 计算 机 有 一 些 内 存 银行 (memory bank)， 这 些 内 存 银 行 和 某 
些 处 理 器 挨 得 比较 近 。Sun 的 Hotspot 回收 器 可 以 识别 这 一 属性 ， 并 优先 在 “附近 的 ”内 存 
中 分 配对 象 ， 对 于 那些 访问 不 同 内存 区 域 耗 时 差异 显著 的 大 型 服务 器 ， 这 一 策略 可 以 最 大 限 
度 地 降低 内 存 访问 时 延 。 


8.2.10 根据 易 变性 进行 分 区 
最 后 ， 我 们 可 能 希望 根据 对 象 的 易 变性 来 对 其 进行 分 区 。 相 较 于 存活 时 间 较 长 的 对 


日 另 一 方面 ， 很 多 新 一 代 上 网 本 的 内 存 都 是 很 有 限 的 ， 因 此 频繁 换 页 是 一 个 需要 仔细 关注 的 问题 。 
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象 ， 那 些 新 创建 的 对 象 往往 被 修改 的 更 频繁 (如 初始 化 其 属性 字段 ) [Wolczko and Willams, 
1992 ; Bacon and Rajan，2001 ; Blackburn and McKinley, 2003 ; Levanoni and Petrank, 
2006]。 基 于 引用 计数 的 内 存 管理 往往 会 产生 很 高 的 每 次 更 新 (per-update) 开销 ， 因 此 不 大 适 
合 管理 那些 更 新 频繁 的 对 象 。 另 外 ， 在 非常 大 的 内 存 堆 中 ， 可 能 在 任意 时 间 周 期 内 都 具有 相 
对 一 小 部 分 对 象 被 更 新 ， 但 一 个 追踪 式 回 收 器 却 必须 访问 所 有 的 垃圾 候选 对 象 。 引 用 计数 在 
该 场景 下 可 能 更 为 适用 。 

Doligez 和 Gonthier 通过 易 变 性 (和 线程 原则 ) 将 ML 对 象 分 隔 开 来 ， 他 们 为 每 个 线程 
配备 了 私有 的 不 可 变 对 象 空 间 、 非 共享 对 象 空间 ， 同 时 所 有 线程 共享 同一 个 空间 [Doligez 
and Leroy, 1993 ; Doligez and Gonthier，1994]。 他 们 的 模式 需要 一 个 关于 引用 的 很 强 的 属 
性 : 线程 本 地 堆 外 (其 他 线程 的 本 地 堆 或 共享 空间 ) 的 指针 没有 指向 该 堆 里 的 任何 对 象 。 通 
过 把 更 改 的 内 容 用 写 时 复制 (copy on write) 的 方法 同步 到 共享 内 存 区 的 策略 ， 我 们 成 功 避 
免 了 线程 本 地 堆 内 存 被 外 部 引用 。 这 在 语义 上 是 透明 的 ， 因 为 引用 的 目标 是 不 可 变 的 。 综 上 
所 述 ， 这 些 属性 让 每 个 线程 的 私有 堆 都 可 以 被 异步 回收 。 该 方法 的 一 个 额外 的 优势 是 ,与 其 
他 大 多 数 各 自 独立 回收 每 个 空间 的 策略 不 同 ， 该 方法 不 需要 追踪 跨 空间 的 指针 (虽然 赋值 器 
仍 必须 检测 这 些 指 针 )。 


8.3 ”如 何 进行 分 区 


最 直观 、 普 通 的 分 区 方法 大 概 就 是 将 堆 内 存 分 成 互 不 重合 的 地 址 段 。 在 最 简单 的 情况 
下 ， 每 个 空间 占据 连续 的 扒 内 存 块 ， 因 此 这 种 映射 是 一 对 一 的 。 把 这 些 内 存 块 按 2 的 整数 次 
每 地 址 边界 对 齐 将 是 更 为 有 效 的 做 法 。 在 这 种 情况 下 ， 对 象 所 属 的 空间 信息 就 相当 于 被 编码 
到 地 址 的 最 高 位 ， 并 可 以 通过 移 位 或 掩 码 操作 来 找到 具体 位 置 。 一 旦 获知 了 空间 的 特性 ， 回 
收 器 就 可 以 决定 如 何 处 理 其 中 的 对 象 了 (例如 ， 标记、 复制 、 忽 略 等 )。 如 果 能 在 编译 期 获 
知 空间 的 布局 (layout)， 则 这 种 尝试 ( 即 与 一 个 常量 进行 比较 ) 可 能 会 特别 有 效 。 此 外 ， 知 
把 这 些 二 进 制 位 看 成 内 存 块 表 的 索引 ， 我 们 就 可 以 对 空间 进行 查找 操作 了 o 

然而 ， 对 32 位 操作 系统 的 内 存 使 用 来 说 ， 将 内 存 分 割 成 连续 的 内 存 区 可 能 不 是 最 有 效 
的 方案 ， 因 为 这 些 区 域 占据 的 虚拟 地 址 空间 必须 是 事先 保留 的 。 虽 然 那 些 即 时 的 划 进 / 划 出 
( mapped in and out) 连续 空间 的 操作 并 不 会 提交 物理 内 存 页 ， 但 连续 的 地 址 空间 或 多 或 少 会 
感觉 不 大 灵活 并 可 能 导致 虚拟 内 存 耗 尽 ， 即 使 系统 中 仍 有 足够 的 物理 内 存 页 可 用 。 还 有 一 个 
额外 的 困难 是 ， 在 很 多 情况 下 操作 系统 都 趋向 于 把 类 库 的 代码 段 映 射 到 不 可 预知 的 地 方 
有 时 是 故意 为 之 ， 以 便于 改善 系统 的 安全 性 。 这 使 得 预 留 大 块 连续 虚拟 地 址 空间 的 操作 变 得 
非常 困难 。 在 大 部 分 情况 下 ， 改 用 64 位 地 址 空间 就 可 以 有 效 解 决 这 些 问题 。 

另 一 种 方法 是 将 空间 实现 为 非 连续 内 存 块 的 地 址 空间 集合 。 不 连续 空间 通常 都 包含 几 组 
连续 地 址 空间 ， 而 每 段 地 址 空间 又 是 由 固定 大 小 的 帧 组 成 的 。 如 前 所 述 ， 如 果 帧 地 址 是 依照 
2 的 整数 次 宕 边界 对 齐 ， 且 为 操作 系统 页 大 小 的 整数 倍 ， 则 对 于 帧 的 操作 将 会 更 高 效 。 同 样 
地 ， 这 样 做 的 缺点 是 在 获取 对 象 的 空间 信息 时 需要 查 表 。 

通过 把 对 象 在 物理 上 分 隔 开 以 实现 特定 空间 的 做 法 并 不 总 是 必要 的 。 相 反 ， 对 象 所 属 的 
空间 可 以 通过 在 其 头 部 添加 若干 位 的 方式 来 加 以 标识 [Domani 等 ，2002]。 虽 然 这 使 我 们 无 
法 通过 一 个 快速 的 内 存 比较 来 对 空间 进行 判定 ， 但 这 种 方法 或 多 或 少 还 是 有 一 些 优点 的 。 首 
先 ， 这 种 方法 允许 我 们 根据 像 年 龄 或 线程 可 达 性 这 样 的 运行 时 属性 来 进行 对 象 划分 ， 即 使 是 
在 回收 器 不 移动 对 象 的 情况 下 也 适用 。 其 次 ， 该 方法 可 能 会 有 助 于 处 理 那 些 需 要 被 暂时 钉 住 
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的 对 象 〈 例 如 那些 代码 可 访问 但 回收 器 没 察 觉 到 的 对 象 ) 。 最 后 ， 运 行 时 的 动态 分 区 可 能 会 
比 静 态 分 区 更 精确 一 些 。 例 如 ， 静 态 逃 选 分 析 (escape analysis) 9 提供 了 一 个 对 象 是 否 可 能 
被 共享 的 保守 估计 。 虽 然 Hones 和 King[2005] 说 明了 如 何在 线程 本 地 分 配 场景 中 获得 更 为 
精确 的 静态 逃逸 估计 (estimate of escapement)， 静 态 分 析 还 是 不 能 适应 超大 型 程序 的 需求 ， 
而 且 动 态 类 加 载 技术 的 出 现 通常 迫使 该 分 析 更 加 保守 化 。 如 果 对 象 的 逃逸 是 被 动态 追踪 的 ， 
则 当前 线程 本 地 对 象 和 那些 正在 (或 已 经 ) 被 超过 一 个 线程 访问 的 对 象 之 间 的 差别 就 很 明显 
了 。 动 态 分 隔 的 缺点 是 会 引入 更 多 的 写 屏 障 ( write barrier)。 一 旦 一 个 指针 更 新 操作 使 其 所 
指 对 象 成 为 潜在 的 共享 状态 ， 则 其 所 指 对 象 和 传递 闭 包 都 必须 被 标记 为 共享 。 

在 这 一 小 节 的 最 后 ， 我 们 注意 到 仅 回 收 内 存 堆 分 区 的 一 个 子 集 必 然 会 导致 回收 器 回收 不 
完全 : 回收 器 无 法 回收 位 于 尚未 进行 回收 的 分 区 里 的 任何 垃圾 。 即 使 垃圾 回收 器 在 一 段 时 
间 之 内 仔细 清理 每 一 个 分 区 ， 假 定 存在 环 状 引用 ， 那 跨越 多 个 分 区 的 垃圾 对 象 环 仍 不 能 被 回 
收 。 为 了 保证 回收 的 完整 性 ， 必 须 在 待 回 收 分 区 以 及 未 被 清理 的 对 象 被 移动 到 的 目的 分 区 上 
施加 一 些 规则 。 一 个 简单 且 广 泛 使 用 的 解决 方案 是 ， 当 其 他 策略 失败 时 ， 就 回收 整个 堆 。 然 
而 ， 当 后 面 我 们 在 考虑 成 熟 对 象 空 间 (mature object space， 也 称 火 车 回收 器 ) [Hudson and 
Moss，1992] 时 ， 将 会 学 到 一 些 更 为 复杂 的 策略 。 


8.4 何 时 进行 分 区 


分 区 的 决策 既 可 以 静态 (在 编译 期 ) 完成 ， 也 可 动态 进行 一 一 当 一 个 对 象 被 创建 时 ， 或 
者 在 垃圾 回收 期 间 ， 或 者 当 赋 值 器 访问 对 象 的 时 候 。 

最 著名 的 分 区 方案 是 按 对 象 的 分 代 (generational) 进行 划分 ， 在 此 方案 中 ， 对 象 根据 其 
年 龄 被 分 隔 开 来 ， 但 这 只 是 根据 对 象 年 龄 的 相关 属性 进行 分 区 的 形式 之 一 。 与 年 龄 相关 的 回 
收 器 根据 对 象 的 年 龄 将 其 分 隔 成 若干 个 空间 。 在 这 种 情况 下 ， 分 区 是 由 回收 器 动态 执行 的 。 
当 一 个 对 象 的 年 龄 增长 超过 某 个 羡 值 的 时 候 ， 该 对 象 将 被 提升 (从 物理 上 或 逻辑 上 移动 ) 到 
下 一 个 分 代 的 空间 中 。 

由 于 在 移动 对 象 方面 存在 一 些 限 制 ， 将 对 象 进行 分 隔 的 操作 可 能 是 由 回收 器 来 完成 的 。 
例如 ， 当 某 些 对 象 被 钉 住 时 ， 大 多 数 复制 回收 器 可 能 无 法 移动 它们 一 这 些 对 象 被 某 些 不 会 
意识 到 它 的 位 置 可 能 会 变动 的 代码 访问 。 

分 区 的 决策 也 可 能 是 由 分 配器 完成 的 。 最 常见 的 情况 是 ， 分 配器 会 根据 一 个 分 配 请 求 所 
需 的 内 存 大 小 来 决定 对 象 是 否 应 该 被 分 配 到 大 对 象 空间 中 。 在 系统 支持 的 对 程序 员 可 见 的 显 
式 内 存 区 或 可 以 由 编译 器 推测 得 到 的 区 域 (如 作用 域 ) 内 ， 分 配器 或 编译 器 可 以 将 对 象 放 置 
到 一 个 指定 的 区 域 中 去 。 除 非 被 明确 告知 对 象 是 共享 的 ， 和 否则 位 于 线程 本 地 系统 内 的 分 配器 
会 把 对 象 放 到 该 执行 线程 的 本 地 子 堆 中 。 一 些 分 代 系 统 会 尝试 把 一 个 新 对 象 和 指向 它 的 那些 
对 象 置 于 相同 的 区 域 里 ， 因 为 无 论 如 何 该 对 象 最 终 都 会 被 提升 到 那里 [Guyer and McKinley, 
2004]. 

通过 对 象 的 类 型 、 代 码 或 者 一 些 其 他 的 分 析 ， 对 象 所 属 的 空间 可 以 被 静态 地 划 定 。 如 果 
可 以 提前 预知 某 种 类 型 的 对 象 都 存在 某 种 公共 属性 ， 如 永生 性 (immortality)， 则 编译 器 就 
可 以 决定 应 该 将 这 些 对 象 分 配 到 哪个 空间 ， 并 生成 适当 的 代码 序列 。 分 代 垃 圾 回收 器 通常 在 
为 新 对 象 预 留 的 一 块 新 生 代 区 域 中 创建 对 象 ， 随 后 ， 回 收 器 将 会 把 其 中 一 些 对 象 提 升 到 更 


O 逃逸 指 对 象 脱离 了 原 线程 本 地 内 存 的 范围 ， 成 为 了 共享 对 象 。 一 一 译 者 注 
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老 的 分 代 中 去 。 然 而 ， 如 果 编 译 器 “知道 ” 某 些 对 象 ( 例 如， 那些 在 代码 中 某 一 特定 地 点 创 
建 的 对 象 ) 通常 会 得 到 提升 ， 则 编译 器 可 以 把 它们 直接 预 分 配 ( pretenure) 到 年 老 代 里 面 去 
[Cheng 等 ，1998; Blackburn 等 ，2001，2007; Marion 等 ，2007]。 

最 后 ， 当 堆 内 存 被 并 发 回收 器 ( 见 第 15 章 ) 管理 的 时 候 ， 对 象 还 可 以 被 赋值 器 重新 划 
分 。 赋 值 器 访问 对 象 的 操作 可 能 会 被 读 屏障 或 写 屏 障 居中 调节 (mediated)， 这 些 都 会 导致 一 
个 或 多 个 对 象 被 移动 或 标记 。 对 象 的 颜色 (黑色 、 灰 色 、 白 色 ) 以 及 持 有 对 象 的 新 / 旧 空 间 
都 可 以 被 认为 就 是 一 个 分 区 。 分 配器 可 以 根据 其 他 一 些 属 性 来 动态 地 区 分 对 象 。 如 上 所 见 ， 
当 对 象 逃 逸 出 它 诞 生 的 线程 时 ，Domani 等 人 [2002 年 ] 使 用 的 写 屏 障 就 可 以 把 它们 从 逻辑 
上 分 隔 开 来 。 通 过 与 操作 系统 进行 协作 ， 和 运行 时 系统 可 以 在 对 象 所 在 页 被 换 入 、 换 出 时 将 对 
象 进 行 重新 划分 [Hertz 等 ，2005]。 

在 接 下 来 的 两 章 里 ， 我 们 将 会 研究 各 种 类 型 的 分 区 式 的 垃圾 回收 器 。 第 9 章 将 会 仔细 研 
究 分 代 垃 圾 回收 器 ， 而 第 10 章 将 会 检验 大 量 其 他 模型 ， 包 括 基于 年 龄 或 者 其 他 非 临时 属性 

的 多 种 分 区 策略 。 
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分 代 垃 圾 回收 





垃圾 回收 器 的 主要 目的 是 找到 已 经 死亡 的 对 象 并 回收 它们 所 占用 的 空间 。 在 对 象 数量 较 
少 的 情况 下 ， 追 踪 式 垃圾 回收 器 (特别 是 复制 式 垃圾 回收 器 ) 能 够 最 高 效 地 进行 回收 。 但 长 
寿 对 象 的 存在 却 会 影响 回收 效率 ， 因 为 回收 器 不 是 反复 地 对 其 进行 标记 、 追 踪 ， 就 是 反复 地 
把 它们 从 一 个 半 区 复制 到 另 一 个 半 区 。 第 3 章 提 到 ， 在 标记 -整理 回收 器 中 ， 长 寿 对 象 会 积 
累 在 堆 底 ， 并 且 回 收 器 通常 会 避免 对 这 些 底 部 的 “沉积 物 ” 进 行 处 理 。 虽 然 这 一 策略 可 以 减 
少 移动 长 寿 对 象 的 次 数 ， 但 是 回收 器 仍然 需要 对 它们 进行 扫描 ， 也 需要 对 它们 所 包含 的 引用 
进行 更 新 。 

分 代 垃 圾 回收 是 对 上 述 算法 的 进一步 改进 与 提升 。 在 任何 时 候 ， 分 代 垃 圾 回收 算法 都 尽 
可 能 少 地 去 处 理 长 寿 对 象 。 弱 分 代 假 说 ( weak generational hypothesis) 告诉 我 们 ， 大 部 分 对 
象 都 在 年 轻 时 死亡 ， 因 此 可 以 利用 这 一 特性 尽量 提高 回收 效益 ( 即 回收 所 得 到 的 空间 )， 同 
时 减 小 回收 开销 。 分 代 垃 圾 回收 算法 依照 对 象 的 寿命 将 其 划分 为 不 同 的 分 代 〈 generation ), 
同时 将 不 同 分 代 的 对 象 置 于 堆 中 不 同 的 区 域 。 回 收 器 会 优先 回收 年 轻 代 对 象 ， 并 将 其 中 寿命 
够 长 的 对 象 提升 (promote) 到 更 老 的 一 代 。 

大 多 数 分 代 垃 圾 回收 算法 通过 复制 的 方法 来 处 理 年 轻 代 对 象 。 如 果 被 处 理 的 分 代 中 存活 
对 象 的 数量 足够 少 ， 则 其 标记 /构造 率 ( mark/cons ratio) 会 降低 ， 即 回收 器 在 一 次 回收 过 程 
中 所 需要 处 理 的 数据 量 与 分 配器 在 相 邻 两 次 回收 之 间 所 分 配 的 数据 量 之 间 的 比例 较 低 。 回 收 
器 处 理 年 轻 代 对 象 所 需要 的 时 间 主 要 取决 于 年 轻 代 的 整体 大 小 ， 因 此 ， 回 收 某 一 分 代 的 期 望 
回收 停顿 时 间 可 通过 调整 分 代 大 小 的 方式 来 实现 。 在 现 有 硬件 条 件 下 ， 一 个 配置 合理 的 垃圾 
回收 器 (在 运行 符合 弱 分 代 假 说 的 程序 时 ) 完成 一 次 年 轻 代 垃圾 回收 所 需 的 时 间 通 常 是 10ms 
级 别 。 假 定 两 次 垃圾 回收 的 时 间 间 隔 足 够 长 ， 则 该 类 型 垃圾 回收 器 可 以 满足 绝 大 多 数 应 用 程 
序 的 要 求 。 

某 些 情况 下 ， 分 代 垃 圾 回收 器 需要 对 整个 堆 进 行 回 收 。 例 如 可 用 内 存 已 经 耗 尽 ， 或 者 仅 
仅 依靠 回收 年 轻 代 所 能 获取 的 内 存 已 经 不 足 。 因 此 分 代 垃 圾 回收 器 最 多 只 能 改善 期 望 停顿 时 
间 (而 非 最 大 停顿 时 间 )， 这 显然 不 能 满足 实时 系统 的 要 求 。 第 19 章 讨论 硬 实时 系统 下 的 垃 
圾 回收 算法 。 

分 代 垃 圾 回收 可 以 通过 减少 对 年 老 代 对 象 的 处 理 次 数 来 提升 内 存 吞 吐 量 ， 但 这 需要 付出 
一 定 的 额外 开销 。 我 们 知道 ， 仅 针对 年 轻 代 对 象 的 回收 并 不 能 回收 任何 一 个 年 老 代 垃圾 对 
象 ， 同 时 回收 器 也 无 法 及 时 回收 已 经 成 为 垃圾 的 长 寿 对 象 。 因 此 ， 为 了 能 够 独立 回收 某 一 分 
代 ， 分 代 回 收 器 必须 在 赋值 器 之 上 维护 一 个 额外 的 记忆 和 集 来 记录 分 代 间 指针 。 与 分 代 回 收 带 
来 的 收益 相 比 ， 这 一 开销 是 值得 付出 的 。 如 何 设计 分 代 垃 圾 回收 器 才能 同时 达到 提升 吞吐 量 
与 减少 停顿 时 间 的 目的 ， 是 一 门 精妙 的 艺术 。 


9.1 示例 
图 9.1 是 分 代 垃 圾 回收 的 一 个 简单 示例 ， 它 使 用 两 个 分 代 。 新 对 象 诞生 在 年 轻 代 。 在 每 
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一 次 年 轻 代 对 象 回收 过 程 中 ， 如 果 某 一 对 象 的 寿命 够 长 ， 则 回收 器 会 将 其 提升 到 年 老 代 。 在 
进行 第 一 次 回收 之 前 ， 年 轻 代 包含 4 个 对 
R: NP, V Q; 年 老 代 包含 三 个 对 象 : R S, 
Us HARAN 同时 被 堆 之 外 的 根 或 者 其 
他 对 象 引 用 。 假 设 对 象 N、P、V 已 经 存活 
了 一 段 时 间 ， 但 是 对 象 Q 却 是 在 回收 过 程 
开始 之 前 刚刚 创建 的 。 此 时 ， 将 哪个 年 轻 代 
对 象 提 升 到 年 老 代 是 一 个 十 分 重要 的 问题 。 

分 代 垃 圾 回收 器 的 一 个 重要 任务 便 是 把 


寿命 够 长 的 年 轻 代 对 象 提升 到 年 老 代 。 要 达 
到 这 一 目的 首先 需要 一 种 测量 对 象 寿 命 的 方 图 9.1 分 代 间 指针 。 如 果 想 要 在 年 轻 代 回 收 过 程 中 








法 ， 并 通过 某 种 方法 将 其 记录 。 在 图 9.1 中 避免 对 年 老 代 的 扫描 ， 就 需要 通过 一 个 特殊 
的 年 轻 代 对 象 里 ， 对 象 N 直接 被 根 对 象 引 的 数据 结构 和 机 制 来 记录 年 老 代 中 有 哪些 对 
用 ， 对 象 P、Q 通过 年 老 代 对 象 R、S 间接 人 


地 被 根 对 象 引 用 。 绝 大 多 数 分 代 垃 圾 回收 器 不 会 扫描 整个 堆 ， 而 只 会 扫描 正在 进行 回收 的 一 
代 中 的 对 象 。 为 达到 这 一 目的 ， 分 代 垃 圾 回收 器 必须 额外 维护 一 个 分 代 间 指针 集合 ， 例 如 ， 
该 集合 会 记录 对 象 S， 通 过 该 集合 便 可 快速 地 找到 对 象 P 和 Q 。 

有 两 种 情况 会 导致 分 代 间 指针 的 出 现 ， 一 是 赋值 器 在 一 个 年 老 代 对 象 中 写 人 一 个 指向 年 
轻 代 对 象 的 指针 ， 二 是 回收 器 将 一 个 年 轻 代 对 象 提升 到 年 老 伐 ， 如 图 9.1 中 将 对 象 P 而 Q 提 
升 到 年 老 代 。 不 论 哪 种 情况 ， 都 可 以 通过 一 个 写 屏障 (write barrier) 来 检测 分 代 间 指针 的 产 
生 。 也 就 是 说 ， 为 捕获 分 代 间 指针 赋值 器 ， 必 须 通 过 写 屏 障 来 进行 指针 写 操作 ， 回 收 器 也 必 
须 依赖 一 个 简单 的 复制 写 屏障 来 对 提升 过 程 中 出 现 的 分 代 间 指针 进行 探测 。 在 图 9.1 所 示 的 
例子 中 ， 所 有 包含 对 回收 过 程 有 用 的 分 代 间 指针 的 对 象 ( 即 : S, U) 都 会 被 记录 在 记忆 集 
(remset) 中 。 

不 幸 的 是 ， 将 分 代 间 指针 作为 次 级 回收 根 集合 的 方法 加 剧 了 浮动 垃圾 问题 : 尽管 次 级 回 
收 的 频率 较 高 ， 但 其 无 法 对 年 老 代 对 象 进行 回收 (如 对 象 U)。 更 糟糕 的 是 ，U 持 有 一 个 分 
代 间 指针 ， 这 导致 回收 器 必须 将 其 当 作 年 轻 代 的 根 集合 来 对 待 。 这 一 “庇护 ”(nepotism) 效 
应 将 导致 回收 器 把 对 象 V ( 即 对 象 U 的 后 代 ) 提升 到 年 老 代 (而 不 是 将 其 回收 )， 从 而 进一步 
减少 了 年 老 代 的 可 用 空间 。 
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将 对 象 依照 寿命 进行 分 代 的 前 提 是 如 何 去 测 量 对 象 的 寿命 。 对 象 寿命 的 测量 有 两 种 方 
式 ， 一 种 是 基于 对 象 所 经 历 的 时 间 ， 另 一 种 是 基于 堆 所 分 配 的 字 节 数 。 墙 上 时 钟 对 于 理解 系 
统 的 外 部 行为 是 有 用 的 ， 程 序 运行 的 总 时 间 是 多 少 ? 垃圾 回收 过 程 的 停顿 时 间 是 多 少 ? 停顿 
时 间 如 何 分 布 ? 这 些 问 题 的 答案 决定 了 系统 是 否 满足 预定 的 设计 目标 : 是 需要 足够 多 的 时 间 
去 执行 任务 ， 还 是 需要 足够 快 的 响应 速度 。 后 者 既是 人 机 交互 系统 的 要 求 ， 也 是 硬 实时 系统 
CRRA AS) 或 者 软 实时 系统 (允许 少量 的 交互 延迟 ) 的 要 求 。 然 而 ， 确 定 对 象 寿命 的 更 
好 方法 是 统计 该 对 象 存活 期 间 堆 所 分 配 的 字 节 数 。 尽 管 64 位 系统 的 指针 和 整数 会 比 32 位 系 
统 占用 更 多 空间 ， 但 空间 分 配 在 很 大 程度 上 仍 是 一 种 不 依赖 机 器 的 测量 方法 。 字 节 分 配 数 同 
时 也 直接 反映 出 内 存 分 配器 的 压力 ， 这 一 压力 很 大 程度 上 与 垃圾 回收 过 程 的 频率 相关 。 
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不 幸 的 是 ， 在 多 线程 系统 下 (此 时 系统 中 包含 多 个 程序 或 系统 线程 )， 以 堆 分 配 的 字 节 
数 来 测量 寿命 存在 一 定 的 困难 : 计数 器 会 受到 一 些 与 垃圾 回收 过 程 无 关 的 内 存 分 配 的 影响 ， 
所 以 如 果 简 单 地 统计 整体 内 存 分 配 情况 ， 测 量 结果 可 能 偏 大 [Jones and Ryder, 2008]. 

实际 应 用 中 的 分 代 垃 圾 回收 器 一 般 会 将 对 象 所 经 历 的 垃圾 回收 次 数 作为 该 对 象 的 寿命 ， 
这 样 不 仅 记 录 更 加 方便 ， 而 且 占 用 的 额外 空间 较 少 ， 但 这 只 是 字 节 分 配 测量 方法 的 一 个 近似 
替代 。 


9.3 分 代 假说 


弱 分 代 假说 (weak generational hypothesis) 的 含义 是 : 大 多 数 对 象 都 在 年 轻 时 死亡 。 这 
一 假说 已 经 在 各 种 不 同 种 类 的 编程 范式 或 者 编程 语言 中 得 到 证 实 。Federaro 和 Fateman[1981] 
发 现 ， 在 一 个 基于 MacLisp 的 计算 机 代数 系统 中 ，98% 的 对 象 会 在 其 所 经 历 的 首 个 垃圾 回 
收 过 程 中 得 到 回收 ; Zorn[1989] 声称 ，Common Lisp 语言 中 50% 一 90% 的 对 象 寿命 不 超过 
10KB。 这 些 规律 在 函数 式 编程 语言 中 都 是 相似 的 : 在 Haskell 语言 中 ，75% 一 90% 的 对 象 
寿命 不 超过 10KB ， 而 只 有 5% 能 活 过 1MB[Sansom and Peyton Jones, 1993] ; Appel[1992] 
发 现 ， 在 标准 ML/NJ 语 言 中 ， 对 于 要 处 理 的 分 代 ， 每 次 回收 过 程 可 以 回收 98% 的 对 象 ， 
Stefanović 和 Moss[1994] 进一步 发 现 ， 只 有 2% ~ 8% 的 对 象 可 以 活 过 100KB AY Bate. 

这 一 假说 在 基于 面向 对 象 语言 的 程序 中 依然 成 立 。Ungar[1986] £I, Smalltalk 中 只 有 
不 到 7% 的 对 象 可 以 活 过 140KB ; Dieckmann 和 Hélzle[1999] 声称 ， 在 SPECjvm98 基准 程 
序 套件 中 ，1% ~ 40% 的 对 象 可 以 活 过 100KB ， 只 有 不 到 21% 的 对 象 可 以 活 过 1MB ， 这 一 
比例 会 因为 应 用 程序 的 不 同 而 产生 较 大 差异 ; Blackburn 等 [2006] 发 现 ， 在 SPECjvm98 和 
DaCapo 基准 程序 套件 中 ， 年 轻 代 平均 只 有 不 到 9% 的 对 象 可 以 活 过 4MB， 尽 管 不 同 基准 
程序 得 出 的 测试 结果 差别 较 大 ,但 是 这 一 数字 却 是 一 个 普遍 的 上 限 ， 因 为 这 一 数字 包含 在 
最 后 一 次 回收 过 程 之 前 新 创建 的 对 象 ; Jones 和 Ryder[2008] 发 现 ， 在 Java 应 用 程序 中 ， 对 
象 寿命 通常 符合 双 峰 (bimodal) 分 布 ， 即 65% ~ 96% 的 Dacapo 对 象 活 不 过 64KB， 只 有 
3% ~ 16% 的 对 象 可 以 活 过 4MB。 即 使 在 没有 自动 内 存 管理 功能 的 命令 式 语言 (impreative 
language) 中 ， 大 多 数 对 象 的 寿命 也 通常 较 短 : Barrett 和 Zorn[1993] 声称 ，50% 以 上 的 对 象 
WAL 10KB, 10% 以 下 的 对 象 能 活 过 32KB。 

与 弱 分 代 假 说 相 比 ， 支 持 强 分 代 假 说 (strong generational hypothesis) 的 证 据 则 稍 显 
不 足 。 强 分 代 假 说 的 含义 是 : 越 老 的 对 象 越 不 容易 死亡 [Hayes，1991]。 像 弱 分 代 假 说 这 
样 的 简单 模型 能 够 很 好 地 描述 许多 应 用 程序 中 对 象 的 整体 寿命 规律 ， 然 而 一 旦 短命 对 象 的 
比例 减少 ， 较 大 时 间 范 围 内 对 象 寿命 的 分 布 模型 就 会 更 加 复杂 。 程 序 的 处 理 通 常 都 是 分 成 
一 个 个 阶段 (phase) 的 ， 因 而 对 象 的 寿命 不 是 随机 的 ， 它 们 通常 是 成 徐 出 现 且 成 批 死 亡 的 
[Dieckmann and Hölzle, 1999; Jones and Ryder，2008]。 有 相当 一 部 分 对 象 会 一 直 存 活 到 程 
序 结束 。 对 象 的 寿命 也 可 能 与 它们 的 大 小 存在 一 定 联 系 ， 尽 管 这 一 观点 还 存在 争论 [Caudill 
and Wirfs-Brock, 1986; Ungar and Jackson, 1988; Barrett and Zorn, 1993], 但 对 大 型 对 象 
进行 特殊 处 理 也 具有 一 定 意 义 。 


9.4 ”分 代 与 堆 布 局 


回收 器 可 以 使 用 多 种 不 同 的 策略 来 组 织 对 象 的 分 代 。 它 们 可 以 在 物理 上 或 者 逻辑 上 使 用 
两 个 或 更 多 分 代 ， 也 可 以 将 所 有 分 代 限 制 在 相同 大 小 的 空间 内 ， 还 可 独立 维护 每 个 分 代 的 空 
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间 大 小 ; 分 代 内 部 的 数据 结构 可 以 是 扁平 的 (flat)， 也 可 以 是 一 系列 基于 对 象 寿命 os 
PRL “Br” (step) 或 者 “ 桶 ”(bucket) ; 分 代 内 部 可 以 包含 存放 大 对 象 的 特定 子 空间 , 
分 代 也 可 以 使 用 不 同 的 算法 来 维护 其 中 的 对 象 。 
分 代 垃 圾 回收 器 的 主要 设计 目标 是 减少 回收 过 程 的 停顿 时 间 ， 同 时 提升 空间 吞吐 量 。 如 

果 使 用 复制 的 方法 对 年 轻 代 对 象 进行 回收 ， 那 么 期 望 的 停顿 时 间 很 大 程度 上 取决 于 次 级 回收 
(minor collection) 之 后 的 存活 对 象 总 量 ， 而 这 一 数值 又 取决 于 年 轻 代 的 整体 空间 大 小 。 如 果 
年 轻 代 的 整体 空间 太 小 ， 那 么 虽然 一 KERA, seo 年 轻 代 对 象 
没有 足够 的 时 间 到 达 死 亡 ， 因 而 回收 到 的 内 存 不 多 ， 这 一 情况 将 引发 很 多 不 恨 后 果 。 

OO es a a 
且 存 活 下 来 需要 复制 的 对 象 数 量变 多 。 频 繁 的 垃圾 回收 会 增 大 回收 器 停顿 线程 、 扫 描 其 栈 上 
数据 的 开销 。 

其 次 ， 将 较 大 比例 的 年 轻 代 对 象 提 升 到 年 老 代 会 导致 年 老 代 被 快速 填充 ， 进 而 增 大 年 老 
代 ， 甚 至 整个 堆 的 垃圾 回收 频率 。 另 外 ， 过 早 地 将 年 轻 代 对 象 提 升 到 年 老 代 还 会 导致 “ 庇 
护 ” 现 象 的 出 现 : 年 老 代 中 的 垃圾 会 使 得 它们 的 年 轻 后 代 在 次 级 回收 中 存活 下 来 ， 所 以 回收 
器 会 将 这 些 年 轻 后 代 提 升 到 年 老 代 ， 从 而 进一步 提高 了 提升 率 。 

再 次 ， 许 多 证 据 表 明 ， 对 新 生 对 象 的 修改 会 比 对 年 老 对 象 的 修改 更 加 频繁 。 如 果 过 早 地 
将 年 轻 代 对 象 提升 到 年 老 代 ， 则 大 量 的 更 新 操作 (mutation) 会 给 赋值 器 的 写 屏 障 带 来 较 大 
压力 ， 这 种 现象 是 不 希望 出 现 的 。 因 此 我 们 必须 结合 系统 的 真实 负载 来 平衡 赋值 器 和 垃圾 回 
收 过 程 的 开销 。 在 一 个 设计 良好 的 系统 中 ,垃圾 回收 所 占用 的 运行 时 间 一 般 都 小 于 赋值 器 。 
例如 ， 对 于 某 个 快速 路 径 (fast path) 中 只 包含 少量 指令 的 写 屏障 ， 假 设 其 占用 整体 运行 时 
间 的 5%， 进 一 步 假 设 垃圾 回收 占用 整体 运行 时 间 的 10%， 其 他 种 类 的 写 屏障 则 很 容易 将 拦 
截 过程 占 用 的 时 间 翻 倍 ， 即 额外 增加 5% 的 负载 。 为 了 补偿 写 屏障 带 来 的 额外 负载 ， 垃 圾 回 
收 器 必须 将 自己 的 时 间 消 耗 减 半 ， 但 这 是 很 难 实现 的 。 

最 后 ， 对 象 的 提升 将 会 使 程序 的 工作 集合 变 得 和 稀疏。 因此， 分 代 垃 圾 回收 器 的 设计 是 一 
门 对 这 三 方面 进行 平衡 的 艺术 : 不 仅 要 尽量 加 快 次 级 回收 的 速度 ， 而 且 要 尽量 减少 次 级 回收 
以 及 成 本 更 高 的 主 回 收 (major collection) 的 频率 ， 最 后 还 应 当 尽 量 减 少 赋值 器 的 内 存 管理 
开销 。 下 面 我 们 将 介绍 如 何 达到 这 一 目标 。 


95 多 分 代 


如 果 回 收费 使 用 更 多 的 分 代 ， 不 仅 可 以 快速 回收 年 轻 代 ， 而 且 可 以 降低 年 老 代 的 填充 速 
度 ， 进 而 降低 整个 堆 的 回收 频率 。 中 间 代 能 够 得 选 出 那些 经 历 过 年 轻 代 回收 后 仍然 存活 但 很 
快 就 会 死亡 的 对 象 。 如 果 回 收 需 将 年 轻 代 回收 的 存活 对 象 集体 提升 ， 那 么 其 中 将 包含 很 多 刚 
刚 诞生 但 在 不 久 的 将 来 就 会 死亡 的 对 象 ， 而 如 果 使 用 多 分 代 垃 圾 回收 ， 不 仅 可 以 使 年 轻 代 保 
持 较 小 的 整体 大 小 以 减少 回收 停顿 时 间 ， 而 且 还 可 以 避免 最 老 代 中 出 现 一 些 很 快 就 会 死亡 的 
对 象 。 

多 分 代 垃 圾 回收 器 也 存在 一 些 缺 陷 。 大 多 数 系统 在 回收 最 老 代 对 象 的 同时 也 会 回收 年 轻 
代 ， 这 带 来 一 个 好 处 ， 即 需要 记录 的 分 代 间 指针 就 会 只 有 一 个 方向 ， 即 从 年 老 代 到 年 轻 代 ， 
这 一 方向 的 引用 一 般 比 反 向 的 引用 要 少 。 尽 管 对 中 间 分 代 进 行 一 次 回收 的 时 间 小 于 回收 整个 
堆 所 需要 的 时 间 ， 但 是 仍然 会 大 于 一 次 年 轻 代 回收 所 需要 的 时 间 。 多 分 代 垃 圾 回收 器 的 实现 
通常 比较 复杂 ， 而 且 会 给 回收 器 的 扫描 过 程 带 来 额外 的 负担 ， 其 关键 实现 代码 也 与 两 分 代 垃 
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圾 回收 器 存在 一 定 的 差别 (两 分 代 垃圾 回收 器 通常 可 以 用 一 个 固定 的 地 址 来 进行 分 代 ， 甚 至 
可 以 是 一 个 编译 期 决定 的 地 址 )。 分 代 的 增多 会 导致 分 代 间 指针 相应 增多 ， 进 而 给 赋值 器 的 
写 屏 障 带 来 更 大 压力 (当然 这 取决 于 具体 的 实现 )。 另 外 ， 中 间 分 代 的 出 现 将 创建 更 多 的 分 
代 间 指针 ， 从 而 增 大 年 轻 代 的 根 集合 。 

很 多 为 Smalltalk 和 Lisp 设计 的 早期 分 代 垃 圾 回收 器 都 使 用 多 分 代 回 收 机 制 ， 但 现代 面 
向 对 象 语言 所 依赖 的 分 代 垃 圾 回收 器 大 部 分 都 仅 使 用 两 个 分 代 。 一 些 分 代 垃 圾 回收 器 《例如 
在 分 配 率 和 死亡 率 都 非常 高 的 函数 式 语 言 中 所 使 用 的 回收 器 ) 尽管 提供 多 于 两 分 代 的 回收 机 
制 ， 但 是 在 默认 情况 下 仍然 仅 使 用 两 分 代 [Marlow 等 ，2008]。 不 同 分 代 的 处 理 机 制 (特别 
是 最 年 轻 代 的 处 理 机 制 ) 可 以 用 来 控制 对 象 的 提升 率 。 


9.6 ”年龄 记录 


9.6.1 集体 提升 


对 象 的 年 龄 记录 方式 与 回收 器 的 提升 策略 紧密 相关 。 多 分 代 是 记录 对 象 年 龄 的 一 种 粗略 
方法 。 图 9.2 展示 了 对 年 轻 代 进行 组 织 以 控制 对 象 提升 的 四 种 策略 ， 我 们 将 逐一 进行 介绍 。 
最 简单 的 组 织 方式 是 将 年 老 代 之 外 的 其 
他 分 代 当 作 独 立 的 半 区 ( 见 图 9.2a), 4 
回收 器 对 某 一 分 代 进 行 回收 时 ， 直 接 将 
其 中 的 存活 对 象 集体 提升 到 下 一 代 。 该 
方案 不 仅 实 现 简 单 ， 而 且 各 年 轻 代 的 内 
存 空间 得 到 最 大 程度 的 利用 ， 因 为 回收 
器 不 仅 无 需 单独 记录 每 个 对 象 的 年 龄 ， 
也 无 须 为 每 一 代 预 留 专门 的 复制 保留 区 
(最 老 代 使 用 复制 式 回收 策略 的 场景 除 
外 )。Jikes RVM Java 虚拟 机 中 ，MMTKk 
内 存 管理 器 所 用 的 分 代 式 回收 器 便 采 
用 这 一 集体 提升 方案 [Blackburn 等 ， 
2004b]。 但 Zorn[1993] 指 出 , (在 Lisp 
系统 中 ) 与 仅 提升 经 历 多 轮 次 级 回收 后 
依然 存活 的 对 象 的 策略 相 比 ， 集 体 提 升 
策略 的 提升 率 要 高 出 50% 一 100%。 

图 9.3[Wilson and Moher, 1989b] c) 衰老 半 区 (记录 每 d) 存活 对 象 空间 提升 
展示 了 年 轻 代 对 象 所 经 历 的 回收 次 数 个 对 象 的 年 龄 ) (记录 每 个 对 象 的 年 龄 ) 
(一 次 或 两 次 ) 与 其 存活 率 之 间 的 关系 。 图 9.2 分 代 垃 圾 回收 器 中 的 半 区 组 织 方式 。 深 灰色 表示 
在 “大 多 数 对 象 都 在 年 轻 时 死亡 ”这 一 新 分 配 的 对 象 ， 浅 灰色 表示 已 完成 复制 或 者 已 得 
前 提 下 ， 图 中 的 曲线 展示 了 + 时刻 分 配 到 提升 的 对 象 。 每 种 情况 下 , x 轴 代表 时 间 ,，?》 
的 对 象 在 经 历数 次 回收 之 后 依然 存活 的 PIETE EENEN E 
比例 。 从 中 我 们 可 以 看 出 ， 对 象 的 创建 ST 08 ia 
时 间 越 接近 下 一 轮回 收 ， 则 其 在 下 一 轮回 收 中 存活 的 几率 就 越 高 。 我 们 将 注意 力 集中 在 第 
于 次 和 第 n 次 回收 之 间 的 图 形 区 域 。 曲 线 (b) 展示 了 经 历 一 轮回 收 后 依然 存活 的 对 象 的 比 
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三 年 老 代 下 < 一 年轻 代 一 * 








115 








100 BOF 


率 ， 从 中 我 们 可 以 看 出 ， 大 多 数 对 象 活 不 过 其 所 经 历 的 第 一 轮回 收 ， 即 图 中 的 浅 灰 色 区 域 。 
位 于 曲线 (c) 下 方 黑 色 区 域 中 的 对 象 可 以 经 历 两 轮回 收 。 如 果 我 们 将 一 次 回收 之 后 所 有 的 存 
活 对 象 集体 提升 ， 则 曲线 (b) 之 下 的 深 灰 色 区 域 以 及 黑色 区 域 中 的 对 象 都 会 得 到 提升 ， 但 如 
果 仅 提升 经 历 两 次 回收 的 对 象 ， 则 只 有 曲线 (c) 下 方 黑 色 区 域 中 的 对 象 才 会 得 到 提升 。 如 果 
每 个 对 象 都 包含 一 个 上 限 大 于 1 的 复制 计数 器 ， 则 回收 器 可 以 避免 提升 过 于 年 轻 的 对 象 CE 
们 可 能 很 快 死 亡 )， 从 而 显著 降低 提升 率 。 如 果 将 提升 的 标准 设置 为 大 于 两 次 回收 ， 反 而 可 
能 起 到 负面 效果 [Ungar, 1984; Shaw, 1988; Ungar and Jackson，1988]。Wilson[1989] 指出 ， 
如 果 要 将 提升 率 降低 一 半 ， 则 对 象 在 得 到 提升 之 前 所 需 经 历 的 复制 次 数 可 能 会 增加 四 倍 或 者 
更 多 。 


高 水 位 标记 (High Water Mark, HWM) 








存活 率 


第 n-1 轮回 收 第 n 轮 回收 ne 第 n+l 轮回 收 第 n+2 轮回 收 
Fey fia 

图 9.3 复制 次 数 为 1 或 2 时 的 对 象 存活 率 。 曲 线 展 示 了 诞生 于 x 时 刻 的 对 象 在 未 来 的 垃圾 回收 过 程 中 存 

活 的 比例 。 曲 线 (b) 展示 了 可 以 活 过 一 轮回 收 过 程 的 对 象 比例 ， 曲 线 (c) 展示 了 可 以 活 过 两 轮回 

收 过 程 的 对 象 比 例 。 带 颜色 的 区 域 可 以 反映 出 在 不 同 复制 次 数 策略 下 最 终 得 到 提升 或 者 未 被 提升 

的 对 象 的 比例 

Wilson and Moher [1989b], doi: 10.1145/74877.74882. 
© 1989 Association for Computing Machinery, Inc., 经 许可 后 转载 


96.2 ”衰老 半 区 


使 用 两 个 或 者 多 个 衰老 半 区 对 某 一 分 代 进 行 组 织 是 实现 延迟 提升 的 方法 之 一 。 该 策略 要 
求 对 象 在 得 到 提升 之 前 必须 已 经 在 其 所 属 分 代 的 来 源 空间 与 目标 空间 之 间 复 制 了 多 次 。 在 
Lieberman 和 Hewitt 最 初 的 分 代 回 收 器 [1983] 中 ， 分 代 中 的 对 象 只 有 经 历 多 次 回收 之 后 才 
可 以 集体 提升 。 在 图 9.2b 所 示 的 衰老 半 区 中 ， 某 一 分 代 的 存活 对 象 是 被 复制 到 目标 半 区 ， 
还 是 被 集体 提升 到 下 一 个 分 代 ， 取 决 于 该 分 代 中 对 象 的 整体 年 龄 。 该 方案 中 ， 尽 管 较 老 的 对 
象 会 有 足够 长 的 时 间 到 达 死 亡 ， 但 最 年 轻 的 对 象 依然 有 可 能 过 早 地 得 到 提升 。 

Sun 公司 的 ExactVMS 也 将 年 轻 代 划分 为 两 个 半 区 ( 见 图 9.2c)， 但 其 对 年 轻 代 对 象 的 提 
升 可 以 精细 到 单个 对 象 级 别 ， 其 方法 是 在 对 象 头 域 中 预 留 五 个 位 来 记录 对 象 的 年 龄 。 回 收 器 





O 该 系统 后 来 更 名 为 Sun Microsystems Laboratories Virtual Machine for Research, 见 http://research.sun.com/ 
features/tenyears/volcd/papers/heller.htm. 
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可 以 根据 对 象 的 年 龄 来 判断 是 将 其 提升 ， 还 是 将 其 复制 到 同一 分 代 的 目标 半 区 中 。 该 方案 虽 
然 可 以 避免 提升 最 年 轻 的 对 象 ， 但 是 其 对 年 轻 代 存活 对 象 的 处 理 却 会 引入 一 些 额 外 开销 。 
桶 组 ( bucket brigade) 和 分 阶 系统 (step system) 可 以 更 好 地 进行 对 象 年 龄 鉴别 ， 同 时 
也 无 须 为 每 个 对 象 保留 特定 的 空间 以 记录 其 年 龄 。 该 策略 将 每 个 分 代 内 部 划分 为 多 个 子 空 
间 ， 每 次 回收 都 会 将 一 个 桶 或 者 阶 中 的 存活 对 象 递 进 式 地 复制 到 下 一 个 ， 同 时 将 最 高 阶 中 
的 存活 对 象 提升 到 下 一 个 分 代 。 也 就 是 说 ， 在 一 个 阶 数 为 n 的 分 阶 系统 中 ， 对 象 在 被 提升 
到 下 一 个 分 代 之 前 必须 经 历 过 n 轮回 收 。Glasgow Haskell 允许 将 每 个 分 代 划 分 为 任意 多 个 
Bt (默认 的 配置 是 年 轻 代 包 含 两 个 阶 ， 其 他 分 代 只 有 一 个 阶 ), UMass GC Toolkit[Hudson 等 ， 
1991] 也 采用 相同 的 策略 。 在 Shaw[1988] 的 桶 组 策略 中 ， 每 一 阶 又 进一步 被 划分 为 两 个 半 
区 ， 存 活 对 象 必须 在 阶 内 的 两 个 桶 之 间 经 历 过 b 次 复制 之 后 才 可 能 被 提升 到 下 一 阶 ， 因 此 对 
于 二 阶 桶 组 系统 ， 对 象 在 被 提升 到 下 一 代 之 前 必须 经 历 2b-1 ~ 2b 次 复制 。Shaw 还 对 其 策 
略 进行 调整 以 简化 对 象 的 提升 。 图 
9.4 是 其 桶 组 策略 的 一 个 实例 ， 其 
中 b=3， 即 对 象 在 被 移动 到 下 一 个 
衰老 桶 或 者 被 提升 到 下 一 代 之 前 ， 
至 少 要 经 历 3 次 复制 。 在 Shaw 的 
系统 中 ， 各 分 代 在 空间 上 是 连续 
的 ， 因 此 可 以 将 衰老 桶 与 年 老 代 进 
行 合 并 ， 即 只 有 当 最 后 一 个 桶 的 目 
标 空间 被 填 满 时 才 进 行 存活 对 象 的 
提升 ， 提 升 的 方法 则 是 简单 地 调整 





两 个 分 代 之 间 的 边界 。 图 9.2c 中 的 时 间 
衰老 空间 (aging space) 与 此 处 的 “图 94 Shaw 的 桶 组 系统 。 在 年 轻 代 内 部 ， 一 次 回收 的 存活 对 
二 阶 桶 策略 存在 一 定 的 相似 之 处 ， 象 会 从 其 诞生 空间 复制 到 衰老 半 区 。 最 后 一 个 衰老 半 
但 它 却 需 要 对 存活 对 象 头 部 中 的 年 区 与 年 老 代 相 邻 ， 因 而 回收 器 可 以 通过 对 两 个 分 代 边 
龄 位 进行 额外 的 操作 。 界 的 调整 简单 地 实现 对 象 提 升 

尽管 “分 阶 ”和 “分 代 ” 策 略 见 Jones [1996] 一 书 ， 经 允 可 后 转载 


都 是 根据 年 龄 来 划分 对 象 ， 但 不 能 将 它们 混淆 。 不 同 分 代 的 回收 频率 不 同 ， 而 同一 分 代 内 
部 的 所 有 分 阶 则 具有 相同 的 回收 频率 。 由 于 年 老 代 的 回收 通常 会 比 年 轻 代 要 晚 ， 因 而 回收 器 
必须 记录 从 年 老 代 指向 年 轻 代 的 跨 代 指针 ， 而 跨 阶 指针 则 无 需 记 录 。 将 年 轻 代 划 分 为 多 个 分 
Bt, 不仅 可 以 在 无 需 为 每 个 对 象 记录 年 龄 的 前 提 下 避免 过 早 的 对 象 提升 ， 而 且 还 可 以 降低 赋 
值 器 写 屏 障 的 开销 。 


96.3 ”存活 对 象 空间 与 柔性 提升 


在 上 述 所 有 基于 半 区 复制 的 回收 策略 中 ， 年 轻 代 中 一 半 的 空间 要 用 作 复 制 保留 区 ， 因 
而 其 空间 浪费 率 较 高 。 为 此 ，Ungar[1984] 进一步 将 年 轻 代 划分 成 一 个 较 大 的 诞生 空间 
(creation space) 以 及 两 个 较 小 的 存活 对 象 半 区 (survivor semispace)， 即 桶 〈 见 图 9.2d) 。 对 
象 在 诞生 空间 中 分 配 ， 次 级 回收 会 将 其 中 的 存活 对 象 提 升 到 存活 对 象 目 标 空间 ( survivor 
tospace)。 对 于 存活 对 象 来 源 空间 (survivor fromspace) 中 的 对 象 ， 次 级 回收 会 根据 其 年 
龄 决定 是 将 其 移动 到 年 轻 代 内 部 的 存活 对 象 目标 空间 还 是 将 其 提升 到 下 一 代 。 诞 生 空间 可 
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以 远 比 两 个 存活 对 象 半 区 大 ， 因 而 这 种 空间 组 织 方式 可 以 提升 空间 利用 率 。 例 如 在 Sun 的 
HotSpot Java 虚拟 机 [Sun Microsystems, 2006] 中 ， 诞 生 空 间 与 存活 对 象 空间 的 大 小 比例 是 
32 : 1， 即 年 轻 代 的 复制 保留 区 仅 占用 不 到 3% 的 空间 9 。HotSpot 的 对 象 提升 策略 并 非 要 求 
对 象 达 到 一 个 固定 的 年 龄 ， 而 是 尝试 为 存活 对 象 腾 出 一 半 的 可 用 空间 。 相 比 之 下 ， 其 他 半 区 
复制 回收 策略 则 会 浪费 一 半 的 空间 。 

Opportunistic 垃圾 回收 器 [Wilson and Moher, 1989b] 使 用 桶 组 系统 ， 同 时 配备 一 个 较 
小 的 存活 对 象 空间 ， 该 回收 器 中 对 象 的 提升 年 龄 标准 具有 一 定 柔性 。 该 回收 器 可 以 在 不 单独 
记录 和 操作 每 个 对 象 年 龄 的 前 提 下 实现 对 象 级 别 的 提升 控制 。 与 其 他 策略 相似 ， 该 回收 器 
也 将 年 轻 代 划分 为 一 个 诞生 空间 以 及 两 个 衰老 空间 ， 但 衰老 空间 并 非 两 个 半 区 ， 而 是 采用 分 
阶 策略 。 次 级 回收 将 诞生 空间 中 的 存活 对 象 移动 到 一 个 衰老 空间 中 ， 同 时 将 另 一 个 衰老 空间 
中 的 存活 对 象 提 升 。 如 果 仅 依靠 这 一 策略 ， 则 对 象 的 提升 标准 即 为 复制 次 数 达 到 两 次 。 但 
Wilson 和 Moher 注意 到 ， 对 象 在 诞生 空间 中 是 按照 其 分 配 的 时 间 顺 序 排列 的 ， 因 此 只 需要 
在 诞生 空间 中 引入 一 个 高 水 位 标记 便 可 通过 一 次 地 址 判断 简单 地 区 分 出 较为 年 轻 的 对 象 ( 即 
图 9.5 中 位 于 高 水 位 线 之 上 的 部 分 )。 可 以 将 诞生 空间 中 较 年 轻 的 部 分 视 为 第 0 阶 桶 ， 同 时 
将 诞生 空间 中 较 老 的 部 分 以 及 衰老 空间 视 为 第 1 阶 桶 ， 只 有 第 1 阶 桶 中 的 存活 对 象 才 会 得 到 
提升 。 


新 分 配 数据 
复制 而 来 的 数据 





图 9.5 高 水 位 标记 。 存 活 对 象 会 从 固定 大 小 的 诞生 空间 迁移 到 年 轻 代 内 部 的 衰老 半 区 ， 并 最 终 被 提升 到 
年 老 代 。 尽 管 回 收 器 会 将 衰老 半 区 中 的 所 有 存活 对 象 提 升 ， 但 借助 于 高 水 位 标记 ， 回 收 器 通过 一 
次 地 址 比较 便 可 简单 地 判定 诞生 空间 中 哪些 对 象 应 当 提升 
Wilson and Moher [1989b], doi: 10.1145/74877.74882. 
©1989 Association for Computing Machinery, Inc.， 经 许可 后 转载 


该 策略 将 对 象 的 提升 年 龄 标准 限定 为 最 多 经 历 两 个 次 级 回收 ， 同 时 也 不 必 显 式 记 录 对 象 
O 硬件 配置 的 发 展 速度 很 快 。Ungar[1984] 的 系统 中 ,诞生 空间 为 140KB， 存 活 空间 为 28KB， 年 老 代 空间 为 


940KB。 在 32 位 的 Solaris 操作 系统 中 ，HotSpot 年 轻 代 默认 的 大 小 是 2228KB。 实 践 中 我 们 使 用 过 的 极限 配 
BE: 3GB 的 诞生 空间 ，128KB 的 存活 空间 ，512MB 的 年 老 代 。 
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年 龄 或 对 其 进行 分 区 组 织 (例如 我 们 前 面 所 提 到 的 半 区 组 织 方式 )。 诞 生 空间 中 ， 提 升 的 阔 
t ( 即 高 水 位 标记 一 一 译 者 注 ) 可 以 设 定 为 1 一 2 之 间 的 任意 小 数 ， 且 可 以 在 任意 时 间 修 改 。 
图 9.3 展示 了 该 算法 的 效果 ， 其 中 的 白色 虚线 代表 高 水 位 标记 ， 其 左 侧 深 灰色 区 域 以 及 黑色 
区 域 ( 即 曲线 (c) 之 下 ) 中 的 所 有 对 象 都 会 在 下 次 回收 过 程 中 得 到 提升 。 在 高 水 位 标记 右 侧 ， 
黑色 区 域 中 的 对 象 将 会 得 到 提升 ， 而 灰色 区 域 中 的 对 象 则 会 在 下 一 次 回收 中 死亡 。Wilson 和 
Moher 在 字 节 码 Scheme-48 中 使 用 了 这 一 方案 ， 且 其 使 用 了 3 个 分 代 。 标 准 ML 也 采用 了 该 
方案 ， 但 其 分 代数 量 增加 到 14 个 [Reppy, 1993]. 


9.7 ”对 程序 行为 的 适应 


某 些 回收 器 可 以 在 运行 时 根据 程序 的 行为 做 出 调整 ， 例 如 Opportunistic 回收 器 可 以 在 
程序 运行 时 改变 回收 策略 ， 其 调整 机 制 不 仅 可 以 达到 很 细 的 粒度 ， 而 且 实现 简单 。 真 实 应 用 
程序 (而 非 玩 具 式 的 程序 或 者 人 为 的 基准 测试 程序 ) 的 执行 通常 是 分 阶段 的 ， 同 时 对 象 生命 
周期 的 分 布 既 不 是 随机 的 也 不 是 静态 的 ， 因 此 回收 器 根据 程序 行为 进行 自 适 应 调整 是 十 分 必 
要 的 。 许 多 程序 都 具有 一 些 共同 的 行为 模式 。 某 一 集合 中 的 对 象 可 能 逐渐 积累 ， 然 后 在 同一 
时 刻 全 部 死亡 。 另 外 ， 存 活 对 象 的 整体 大 小 也 可 能 在 达到 某 一 值 后 长 期 处 于 平稳 。Ungar 和 
Jackson[1988] 将 对 象 成 簇 诞生 但 慢 慢 消亡 的 情况 其 类 比 为 “ 蛇 知 象 ”。 一 旦 对 象 生命 周 期 的 
分 布 模型 不 符合 弱 分 代 假 说 ， 则 分 代 回 收 嚣 便 可 能 遇 到 问题 。 如 果 大 量 对 象 在 存活 到 年 老 
代 之 后 才 会 死亡 ， 则 回收 器 的 性 能 会 受到 影响 。 为 解决 这 一 问题 ，Ungar 和 Jackson[1988, 
1992] 提出 了 多 种 柔性 方案 来 控制 年 老 代 对 象 的 数量 。 

垃圾 回收 器 对 赋值 器 行为 的 适应 能 力 是 十 分 有 用 的 ， 例 如 可 以 减少 期 望 停顿 时 间或 者 提 
升 整体 吞吐 量 。 最 简单 的 回收 调度 策略 是 仅 当 可 用 空间 耗 尽 时 才 执 行 垃 圾 回收 ， 但 通用 内 
存 管理 器 可 以 通过 对 最 年 轻 分 代 的 大 小 进行 调整 来 控制 停顿 时 间 : 诞生 空间 越 小 ， 则 次 级 回 
收 所 要 提升 的 年 轻 代 对 象 就 越 少 。 每 个 分 代 的 空间 大 小 也 会 影响 对 象 的 提升 率 。 如 果 年 轻 代 
的 空间 太 小 以 至 于 新 生 对 象 没有 足够 的 时 间 到 达 死 亡 ， 提 升 率 便 会 增 大 ， 而 如 果 诞 生 空 间 很 
大 ， 则 回收 时 间 间 隔 会 增 大 ， 对 象 的 提升 率 也 会 降低 。 


9.7.1 Appel 式 垃圾 回收 


Appel[1989a] 针对 标准 ML 提出 了 一 种 自 适 应 分 代 策略 ， 其 年 轻 代 可 以 在 堆 内 存 总 量 不 
变 的 情况 下 占用 尽 可 能 多 的 空间 (而 不 是 一 个 大 小 固定 的 空间 )。ML 语言 中 ,一 次 回收 完 
成 后 通常 只 有 不 到 2% 的 对 象 可 以 存活 ， 而 该 策略 正 是 针对 这 一 情况 而 设计 的 。Appel 的 方 
案 将 堆 划 分 为 3 个 区 域 : 年 老 代 (old)、 复 制 保留 区 (copy reserve)、 年 轻 代 (young) ( 见 图 
9.6a)。 针 对 年 轻 代 的 回收 会 将 其 中 所 有 存活 对 象 集体 提升 到 年 老 代 的 末尾 COLA 9.6b)。 回 
收 完成 后 ， 年 老 代 之 外 的 其 他 空间 将 被 划分 为 大 小 相同 的 两 份 ， 一 份 用 作 复 制 保留 区 ， 另 一 
份 则 作为 年 轻 代 的 诞生 空间 。 如 果 年 轻 代 的 可 用 空间 小 于 某 一 闵 值 ， 则 会 执行 整 堆 回 收 。 

与 其 他 基于 复制 的 回收 策略 一 样 ，Appel 式 垃 圾 回收 必须 保证 复制 保留 区 在 最 差 情况 下 
仍 可 以 容纳 所 有 的 存活 对 象 ( 即 年 轻 代 和 年 老 代 存活 对 象 的 总 和 )。 最 保守 的 策略 是 确保 old + 
young < reserve, 但 Appel 却 可 以 在 降低 整 堆 回收 频率 的 同时 将 这 一 要 求 降 低 为 old < 
reserve H young < reserve， 其 证 明 如 下 。 在 次 级 回收 之 前 ， 即 使 所 有 的 年 轻 代 对 象 都 存活 
下 来 ， 复 制 保留 区 也 能 够 将 其 全 部 容纳 。 次 级 回收 完成 后 ， 所 有 刚刚 完成 提升 的 对 象 均 位 于 
“old' ”所 标识 的 区 域 ， 由 于 它们 都 是 存活 对 象 ， 因 而 即使 立刻 执行 整 堆 回收 ， 这 些 对 象 也 
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无 需 移 动 。 同 时 由 于 old < reserve， 新 的 复制 保留 区 也 可 容纳 old 所 标识 区 域 中 所 有 在 以 往 
的 次 级 回收 中 得 到 提升 的 对 象 ( 见 图 9.6c)。 主 回收 完成 后 ， 回 收 器 需要 将 old 区 域 中 所 有 的 
存活 对 象 (当前 是 在 堆 的 顶端 ) 移动 到 堆 的 底部 9?。 需 要 注意 的 是 ， 对 于 一 部 分 在 年 轻 代 而 另 
一 部 分 在 年 老 代 的 环 状 垃圾 ， 这 种 “二 次 回收 ”的 方法 无 能 为 力 ， 但 在 下 次 主 回收 中 ， 这 种 
环 状 垃圾 必然 全 部 位 于 年 老 代 ， 因 此 最 终 可 以 得 到 回收 。 


相等 相等 
a) 次 级 回收 之 前 ， 复 制 保留 区 的 大 小 至 少 要 与 年 轻 分 代 大 小 相同 











相等 相等 
b) 次 级 回收 完成 后 ， 年 轻 代 的 存活 对 象 被 复制 到 复制 保留 区 ， 从 而 增 大 了 年 老 代 
的 空间 。 此 时 ， 复 制 保留 区 和 年 轻 分 代 会 缩小 ， 但 它们 的 大 小 依然 相等 












相等 4 
c) 次 级 回收 之 后 、 主 回收 之 前 堆 的 状态 。 主 回收 会 将 old 区 域 中 的 存活 对 象 移动 到 
复制 保留 区 ， 然 后 再 将 所 有 的 存活 对 象 移动 到 堆 底 


图 9.6 Appel 的 简单 分 代 回 收 器 〈 灰 色 区 域 为 可 用 空间 ) 


Appel 的 分 代 回 收 器 基于 连续 的 堆 空间 ， 但 也 有 其 他 Appel 式 的 回收 器 使 用 块 结构 堆 ， 
后 者 可 以 避免 在 主 回收 完成 后 将 存活 对 象 移 动 到 堆 底 这 一 操作 。 在 年 轻 代 具有 收缩 能 力 的 基 
础 上 ， 年 老 代 也 可 使 用 诸如 标记 - 清扫 等 非 移动 式 回收 算法 来 管理 。 

与 使 用 集体 提升 策略 且 年 轻 代 大 小 固定 的 分 代 回 收 器 相 比 ，Appel 式 回 收 器 的 优点 在 于 
其 复制 保留 区 的 大 小 可 以 动态 调整 ， 从 而 可 以 提升 内 存 利用 率 并 降低 回收 频率 。 但 是 ， 为 避 
免 回 收 占 出 现 性 能 颠 艇 ,人 和 仍 有 一 些 细节 需要 注意 。Appel 的 设计 出 发 点 在 于 许多 程序 都 具有 
较 高 的 分 配 率 以 及 较 小 的 提升 率 。 如 果 诞 生 空间 收缩 得 太 小 ， 则 次 级 回收 发 生 的 频率 会 变 
高 ， 但 由 于 得 到 提升 的 对 象 太 少 并 不 足以 触发 主 回 收 ， 因 而 程序 的 性 能 会 受到 影响 。 解 决 这 
一 问题 的 方法 是 在 年 轻 代 空间 小 于 某 一 阔 值 时 便 进行 整 堆 回收 。 


9.7.2 ”基于 反馈 的 对 象 提升 


还 有 许多 控制 提升 率 的 策略 均 以 降低 停顿 时 间 为 目标 。 基 于 反馈 的 统计 分 析 提 升 
( demographic feedback-mediated tenuring) [Ungar and Jackson, 1988, 1992] 尝试 对 刚 提 升 
不 和 久 便 立即 死亡 的 对 象 进行 控制 以 减缓 停顿 时 间 过 长 的 情况 。 该 方案 使 用 一 次 回收 所 提升 
对 象 的 总 量 来 预测 下 次 回收 将 要 提升 的 对 象 总 量 ， 并 据 此 减少 或 者 增 大 提升 率 。 如 果 对 象 
存活 率 超 过 某 一 最 大 值 ， 则 在 下 次 回收 过 程 中 ， 判 定 对 象 是 否 应当 提 升 的 年 龄 标准 会 增 大 。 
尽管 这 一 策略 可 以 控制 对 象 的 提升 率 ， 但 它 却 无 法 将 年 老 代 对 象 降级 到 年 轻 代 。Barrett 和 
Zorn[1995] 在 不 同 分 代 之 间 引 入 具有 双向 移动 能 力 的 危险 边界 (threatening boundary)， 但 由 
于 回收 器 无 法 预测 分 代 之 间 的 边界 未 来 会 落 在 哪里 ， 因 而 写 屏 障 需要 对 更 多 的 指针 进行 追踪 。 


O 即将 old 和 复制 保留 区 中 所 有 存活 的 年 老 代 对 象 移动 到 最 左 端 。 一 一 译 者 注 
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Sun 的 HotSpot 回收 器 家 族 在 1.5.0 版 本 中 引入 了 Ergonomics 机 制 ， 其 目的 在 于 根据 不 
同 的 用 户 需 求 来 调整 各 分 代 的 大 小 。Ergonomics 的 设计 目标 并 不 是 满足 硬 实时 要 求 ， 而 是 以 
3 个 软 目 标 作为 出 发 点 的 。Ergonomics 首先 尝试 满足 最 大 停顿 时 间 的 要 求 ， 然 后 在 此 基础 上 
尝试 提升 吞吐 量 (通过 测量 垃圾 回收 占 程序 整体 执行 时 间 的 比例 来 判定 )， 最 后 在 前 两 个 目 
标 都 达到 的 前 提 下 尽量 减少 程序 所 占用 的 空间 。 优 化 停顿 时 间 的 方法 是 : 对 每 次 回收 的 停顿 
时 间 进 行 统 计 分 析 ， 找 出 时 间 消 耗 最 长 的 分 代 ， 然 后 缩小 该 分 代 所 占据 的 空间 。 吞 吐 量 的 提 
升 则 是 通过 增 大 整个 堆 或 者 某 个 分 代 空 间 来 实现 的 ， 但 分 代 空间 的 增 大 同时 也 会 导致 该 分 代 
的 回收 时 间 变 长 。 默 认 情 况 下 ， 堆 空间 通常 更 倾向 于 增 大 而 不 是 收缩 。 

Vengerov[2009] 提出 了 一 种 分 析 HotSopt 回收 器 吞吐 量 的 模型 ， 并 基于 该 模型 得 出 一 种 
实用 的 回收 器 调整 算法 。 该 算法 主要 关注 HotSpot 回收 器 两 个 分 代 的 相对 大 小 、 对 象 提 升 冰 
值 、 年 轻 代 在 得 到 提升 之 前 所 需 经 历 的 回收 次 数 ， 并 在 运行 时 对 其 进行 动态 调整 。Vengerov 
经 过 观察 得 出 一 个 重要 结论 ， 即 对 提升 率 阔 值 的 调节 不 能 仅 考 虑 这 一 操作 所 能 减少 的 对 象 
提升 数量 ， 还 要 考虑 主 回 收 完成 之 后 年 老 代 的 可 用 空间 与 每 个 次 级 回收 所 提升 对 象 总 量 的 
比值 。Vengerov 在 其 ThruMax 算法 中 提供 了 一 种 可 以 交替 调整 年 轻 代 空间 大 小 以 及 提升 
率 的 协同 演化 框架 ， 其 工作 流程 大 致 如 下 : Æ HotSpot 回收 器 的 第 一 次 主 回收 之 后 ， 或 者 
存活 对 象 的 总 量 达到 某 一 稳定 状态 之 后 〈 即 连续 两 个 次 级 回收 之 间 年 轻 代 存活 对 象 总 量 的 
75% ~ 90%), ThruMax 逐渐 增 大 诞生 空间 的 大 小 3， 直至 其 到 达 一 个 临近 的 最 佳 值 ( 即 $ 
开始 下 降 ， 或 者 在 某 个 值 附近 摆动 )， 然 后 ThruMax 对 提升 阔 值 进行 调整 ， 直 到 吞吐 量 出 现 
下 降 趋势 为 止 。 如 此 一 来 ， 回 收 器 既 可 以 在 避免 任何 副作用 的 前 提 下 适当 减少 诞生 空间 的 大 
小 S， 也 能 确保 在 进行 足够 多 的 次 级 回收 之 后 才 需 要 进行 主 回 收 。 

总 之 , 像 HotSpot 这 样 的 复杂 回收 器 中 可 能 会 存在 大 量 的 可 调 参数 ， 但 每 个 参数 之 间 可 
能 存在 一 定 的 依赖 关系 。 


9.8 分 代 间 指针 


在 对 某 个 分 代 进 行 回 收 之 前 ， 回 收 器 必须 先 确 定 该 分 代 的 根 。 正 如 我 们 在 图 9.1 中 所 看 
到 的 ， 某 个 分 代 的 根 不 仅 包 括 寄存 器 、 栈 、 全 局 变量 中 的 指针 值 ， 如 果 该 分 代 内 部 的 对 象 
被 堆 中 其 他 空间 的 对 象 所 引用 ， 且 这 些 空间 不 会 与 该 分 代 同 时 进行 回收 ， 则 这 些 引用 也 属 
于 该 分 代 的 根 。 这 些 引 用 通常 来 自 于 更 老 分 代 ， 或 者 各 分 代 之 外 的 堆 空间 ， 例 如 大 对 象 空 
间 , 或 者 永远 不 会 进行 回收 的 空间 (如 永生 对 象 或 代码 所 占据 的 空间 )。 分 代 间 指针 的 创建 
有 3 种 方式 : 一 是 在 对 象 创建 时 写 人 ， 二 是 在 赋值 器 更 新 指针 槽 时 写 人 ， 三 是 在 将 对 象 移动 
到 其 他 分 代 时 产生 。 回 收 器 必须 要 对 分 代 间 指针 进行 记录 ， 只 有 这 样 才能 确保 在 对 某 一 分 代 
单独 进行 回收 时 根 的 完整 性 。 我 们 将 所 有 需要 记录 的 指针 统称 为 回收 相关 指针 (interesting 
pointer) 。 

另 一 种 需要 关注 的 引用 来 源 是 存在 于 堆 之 外 的 引导 映像 (boot image) 中 的 对 象 ( 即 引 
导 对 象 )， 这 些 对 象 自 从 程序 启动 之 后 便 一 直 存 在 。 通 用 垃圾 回收 系统 至 少 可 以 使 用 3 种 方 
式 来 处 理 这 些 对 象 : 第 一 ， 对 引导 对 象 进行 追踪 (trace)， 其 优势 在 于 如 果 某 一 堆 中 对 象 仅 
从 某 一 引导 对 象 可 达 ， 而 该 引导 映像 对 象 本 身 不 可 达 时 ， 回 收 器 可 以 将 该 堆 中 对 象 回收 ; 第 
二 ， 对 引导 对 象 进行 扫描 ， 并 从 中 找 出 指向 我 们 所 关注 的 分 代 的 指针 ; 第 三 ， 对 引导 映像 对 
象 中 的 回收 相关 指针 进行 记录 。 追 踪 的 代价 较 高 ， 通 常 只 会 在 整 堆 回 收 时 使 用 ， 因 此 追踪 通 
常 与 扫描 或 记忆 和 集结 合 使 用 。 扫 描 的 优势 在 于 当 赋 值 器 对 引导 映像 对 象 进行 更 新 时 无 需 使 用 
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额外 的 写 屏 障 ， 但 其 缺陷 在 于 回收 器 必须 搜索 更 多 的 域 才能 找 全 回收 相关 指针 。 如 果 将 扫描 
与 追踪 相 结合 ， 则 回收 器 在 追踪 完成 后 必须 将 不 可 达 引 导 映 像 对象 的 各 指针 域 清 零 ， 否 则 将 
错误 地 导致 某 些 垃圾 对 象 重新 可 达 。 记 忆 集 同样 也 拥有 其 自身 的 优势 与 开销 ， 也 不 需要 将 不 
可 达 引 导 映 像 对 象 的 指针 域 清 零 。 


9.8.1 记忆 和 集 


记忆 集 ? 是 用 于 记录 分 代 间 指针 的 数据 结构 ， 其 中 所 记录 的 是 从 堆 中 一 个 空间 指向 另 一 
个 空间 的 指针 来 源 (如 图 9.1 中 的 对 象 U 以 及 对 象 S 的 第 二 个 槽 )。 这 里 需要 注意 的 是 ， 记 
忆 集中 所 记录 的 是 回收 相关 指针 的 来 源 而 非 目标 ， 其 原因 有 二 : 第 一 ， 在 移动 式 回收 器 中 ， 
一 旦 目标 对 象 被 复制 或 者 提升 ， 回 收 器 便 可 根据 记忆 集 更 新 回收 相关 指针 的 来 源 。 第 二 ， 在 
连续 两 次 回收 过 程 之 间 ， 某 个 回收 相关 指针 的 来 源 域 可 能 会 多 次 被 修改 ， 如 果 记 录 回 收 相关 
指针 的 来 源 而 非 目 标 ， 则 回收 器 可 以 仅 对 回收 时 刻 该 指针 域 所 引用 的 对 象 进行 处 理 ， 从 而 无 
需 考虑 其 曾经 指向 过 哪些 其 他 对 象 。 因 此 ， 每 个 分 代 的 记忆 集 均 只 需 记 录 可 能 指向 该 分 代 内 
部 对 象 的 回收 相关 指针 来 源 。 不 同 的 记忆 和 集 实现 方式 在 来 源 地 址 的 记录 方面 所 能 达到 的 精度 
也 各 不 相同 。 精 度 并 非 越 高 越 好 ， 较 高 的 精度 通常 会 增 大 赋值 器 的 额外 开销 、 记 忆 集 空间 开 
销 以 及 回收 器 处 理 记忆 和 集 的 时 间 开 销 。 需 要 注意 的 是 ， 此 处 记忆 集中 的 “ 集 ” 并 非 严 格 意义 
上 的 集合 ， 其 具体 实现 中 通常 允许 出 现 元 素 的 重复 ， 此 时 记忆 集 便 成 为 “多 集合 " (multiset)。 

需要 探测 和 记录 的 指针 当然 是 越 少 越 好 。 回 收 器 所 执行 的 指针 写 操作 (例如 移动 对 象 ) 
通常 很 容易 探测 到 。 赋 值 器 所 执行 的 指针 写 操作 可 以 用 软件 写 屏障 的 方式 实现 ， 即 编译 器 在 
每 个 指针 写 操 作 之 前 插入 额外 的 指令 ， 但 如 果 缺 乏 编译 器 的 支持 ， 该 方案 的 实现 通常 会 遇 到 
问题 。 这 种 情况 下 ， 通 常 需要 借助 于 操作 系统 的 虚拟 内 存 管理 器 来 获取 写 操作 发 生 的 地 址 。 

在 不 同 的 编程 语言 及 其 实现 中 ， 指 针 写 操作 在 全 部 赋值 器 操作 中 所 占 的 比例 各 不 相 
同 。Zorn[1990] 通过 对 一 套 SPUR Lisp 程序 进行 静态 分 析 发 现 ， 指 针 写 操作 的 比例 为 
13% ~ 15%, fil Appel 对 Lisp 进行 静态 分 析 则 将 这 一 数字 降低 到 3%[1987]， 对 ML 进行 动 
态 分 析 的 结果 则 是 1%[1989a]。 在 基于 状态 的 语言 中 ， 破 坏 性 (destructive) 指针 写 操作 出 
现 的 比例 通常 更 高 。Java 应 用 程序 中 ， 指 针 写 操作 的 比例 通常 变化 较 大 ， 如 Dieckmann 和 
Hélzle[1999] 发 现在 所 有 的 堆 访 问 操作 中 ， 指 针 写 操作 的 比例 为 6% ~ 70% (此 处 的 最 大 值 
应 该 是 一 个 异常 值 ， 次 大 的 值 是 46%) 。 


9.8.2 ”指针 方向 


并 非 所 有 的 写 操 作 都 需要 进行 回收 相关 指针 的 探测 和 记录 。 茶 些 语 言 (例如 ML 的 某 些 
实现 ) 将 程序 的 活动 记录 置 于 堆 中 ， 如 果 每 次 回收 都 需要 把 这 些 帧 当 作 根 集合 来 扫描 ， 则 帧 
中 所 包含 的 指针 域 可 以 用 我 们 在 11 章 中 将 要 介绍 的 技术 来 查找 。 此 时 如 果 编 译 器 可 以 检测 
出 针对 栈 槽 的 写 操作 ， 则 可 以 免 去 该 过 程 中 的 写 屏 障 开销 。 另 外 ， 许 多 写 操作 所 涉及 的 对 象 
都 是 在 同一 个 分 区 内 ， 尽 管 此 类 写 操作 可 能 会 被 探测 到 ， 但 它 不 会 产生 任何 回收 相关 指针 ， 
因此 也 无 需 记 录 其 来 源 。 

如 果 我 们 对 各 分 代 进 行 回 收 的 顺序 施加 一 定 的 限制 ， 则 需要 记录 的 分 代 间 指针 的 数量 还 
可 以 大 幅 降 低 。 如 果 可 以 确保 在 对 年 老 代 进行 回收 的 同时 一 定 会 回收 年 轻 代 ， 则 无 需 记录 从 


年 轻 代 到 年 老 代 的 指针 (例如 图 9.1 中 对 象 N 所 包含 的 指针 )。 许 多 指针 写 操 作 都 是 在 对 新 


”我们 此 处 的 术语 与 Jones[1996] 有 所 不 同 ， 后 者 将 卡 表 (card table) 与 其 他 记忆 集 实现 方案 区 别 对待 。 
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创建 对 象 进行 初始 化 时 发 生 的 ，Zorn[1990] 估计 Lisp 语言 中 90% ~ 95% 的 指针 写 操作 都 发 
生 在 对 象 初始 化 过 程 中 (在 剩余 的 写 操作 中 ，2/3 的 写 操作 都 发 生 在 年 轻 代 内 部 )。 从 概念 上 
讲 ， 新 创建 对 象 中 的 指针 必然 指向 年 龄 更 大 的 对 象 ， 但 不 幸 的 是 ， 在 许多 语言 中 ， 对 象 的 分 
配 与 其 内 部 域 的 初始 化 是 两 个 相互 独立 的 过 程 ， 这 导致 编译 器 无 法 将 初始 化 过 程 与 非 初始 化 
过 程 相 区 分 ， 而 后 者 极 有 可 能 创建 从 年 老 代 指向 年 轻 代 的 引用 。 某 些 语言 中 ， 编 译 器 拥有 更 
强 的 指针 写 操作 判断 能 力 ， 从 而 无 需 引 入 写 屏 障 。 例 如 ， 在 诸如 Haskell 的 懒惰 式 纯 函数 式 
语言 中 ， 大 多 数 指针 写 操作 都 会 指向 更 老 的 对 象 ， 而 只 有 真正 对 一 个 待 计 算 值 (thunk， 即 
已 经 绑 定 了 参数 的 函数 ) 进行 计算 并 用 一 个 指针 将 其 覆盖 时 ， 才 有 可 能 创建 从 年 老 代 指向 年 
轻 代 的 指针 。 对 于 ML 这 种 有 副作用 的 严格 编程 语言 ， 开 发 者 必须 对 可 写 变量 进行 显 式 声 
明 ， 而 只 有 对 这 些 对 象 进行 写 操 作 ， 才 可 能 创建 从 年 老 代 指向 年 轻 代 的 指针 。 

对 于 诸如 Java 之 类 的 面向 对 象 语言 ， 情 况 则 稍为 复杂 。 面 向 对 象 语言 的 编程 范式 通常 
集中 在 对 象 状 态 的 更 新 上 ， 这 自然 会 导致 从 年 老 代 指向 年 轻 代 的 指针 出 现 得 更 频繁 。 然 而 ， 
大 多 开发 者 都 会 编写 函数 式 风 格 的 代码 ， 这 通常 可 以 避免 副作用 ， 同 时 在 许多 应 用 程序 中 绝 
大 多 数 指针 的 写 操 作 均 是 针对 年 轻 代 对 象 的 初始 化 。 但 Blackburn 等 [2006a] 指出 ， 不 仅 是 
在 不 同 应 用 程序 之 间 ， 同 一 程序 内 的 不 同 个 体 之 间 也 存在 着 相当 大 的 行为 差异 。 从 他 们 的 报 
告 中 我 们 可 以 看 出 ， 指 针 写 操作 会 在 指针 的 方向 以 及 距离 (此 处 是 指 来 源 对 象 与 目标 对 象 在 
创建 时 间 上 的 距离 ) 上 表现 出 较 大 的 差异 性 ， 其 原因 之 一 便 是 可 能 存在 许多 针对 同一 区 域 的 
写 操 作 ， 这 对 记忆 集 的 实现 有 着 重要 的 影响 。 

如 果 在 任何 情况 下 都 对 年 轻 代 进行 整体 回收 ， 则 写 屏 障 可 以 忽略 对 新 生 区 的 写 操作 (可 
以 预期 ， 此 类 操作 通常 较为 普遍 )。 但 如 果 堆 中 具有 多 个 独立 的 回收 区 域 ， 则 可 能 需要 使 用 
不 同 的 指针 过 滤器 。 例 如 ， 回 收 器 可 能 会 使 用 启发 式 方法 来 估算 哪个 区 域 的 存活 对 象 最 少 ， 
进而 确定 对 不 同 区 域 进 行 回收 的 优先 级 。 这 种 情况 下 ， 我 们 必须 对 两 个 方向 上 的 指针 都 进行 
记录 ， 因 而 需要 记录 的 指针 数量 通常 较 多 ， 此 时 的 最 佳 选择 是 选用 整体 空间 大 小 与 内 部 所 记 
录 指 针 数 量 无 关 的 记忆 集 。 我 们 将 在 第 11 章 讨论 写 屏 障 和 记忆 集 的 具体 实现 。 
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年 轻 代 存活 对 象 的 归宿 有 两 个 ， 一 是 被 复制 到 同一 分 代 的 其 他 半 区 ， 二 是 被 提升 到 年 老 
代 。 基 于 年 轻 代 存活 对 象 较 少 这 一 假设 ， 我 们 通常 期 望 增多 且 简 化 年 轻 代 的 回收 。 一 旦 要 对 
年 老 代 进行 回收 ， 通 常 也 需 同 时 回收 所 有 年 轻 代 ， 和 否则 就 需要 在 写 屏 障 中 对 双向 指针 都 进行 
记录 。 通 常 对 最 老 代 的 回收 会 触及 堆 中 的 所 有 其 他 区 域 ， 但 永生 对 象 区 域 或 者 引导 映像 区 除 
外 ， 这 些 区 域 中 的 引用 通常 会 被 看 作 根 ， 且 回收 器 也 需要 更 新 其 指针 域 。 整 堆 回 收 无 需 使 用 
记忆 集 (永生 对 象 区 域 以 及 引导 映像 区 除外 ， 但 如 果 整 堆 回收 也 会 扫描 这 些 区 域 ， 则 记忆 和 集 
便 彻底 不 再 需要 了 )。 

有 许多 策略 可 以 用 于 最 老 代 的 管理 。 半 区 复制 策略 是 一 种 可 选 方案 ， 但 它 可 能 并 非 最 佳 
选择 。 半 区 复制 需要 在 堆 中 开辟 一 块 复制 保留 区 ， 这 会 导致 堆 可 用 空间 的 减少 ， 从 而 增 大 了 
各 级 回收 的 频率 。 半 区 复制 同时 也 可 能 导致 长 寿 对 象 在 两 个 半 区 之 间 来 回复 制 。 标 记 - 清扫 
回收 占 的 内 存 使 用 率 较 高 ， 特 别 是 在 堆 空 间 较 小 的 情况 下 [Blackburn 等 ，2004a]。 尽 管 标 
记 一 清扫 回收 所 使 用 的 空闲 链表 分 配 通 常 比 顺序 分 配 要 慢 ， 且 其 局 部 性 无 法 预测 ， 但 这 通常 
仅 在 对 象 分 配 较为 频繁 的 年 轻 代 时 才 会 成 为 问题 [Blackburn 等 ，2004a]。 标 记 一 清扫 回收 的 
主要 缺陷 在 于 它 是 非 移动 式 回收 ， 从 而 有 可 能 加 剧 年 老 代 的 内 存 碎片 情况 ， 针 对 这 一 问题 可 
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以 引入 额外 的 整理 式 回 收 ， 即 在 年 老 代 碎片 率 达到 一 定 程度 时 进行 整理 (而 非 每 次 回收 都 进 
行 整理 )。 整 理 式 回收 也 可 以 较 好 地 处 理 长 寿 对 象 。 正 如 我 们 在 第 3 章 所 提 到 的 ， 整 理 式 回 
收 通常 会 在 年 老 代 的 底部 形成 一 个 “密集 前 缀 ” ( dense prefix), HotSpot 标记 一 整理 式 回收 
器 只 有 在 这 一 “沉积 区 ”的 碎片 率 达 到 一 定 程 度 (可 以 由 用 户 决定 的 ) 时 才 会 进行 整理 。 

分 代 垃 圾 回收 器 通常 会 在 物理 上 隔离 不 同 的 分 代 ， 这 便 要 求 年 轻 代 使 用 复制 式 回收 进行 
管理 。Appel 式 回收 器 等 较为 保守 的 回收 器 要 求 复 制 保留 区 在 最 差 情况 下 都 能 够 容纳 所 有 存 
活 对 象 ， 但 在 实践 中 ， 一 次 回收 后 年 轻 代 的 存活 对 象 通常 较 少 。 

如 果 使 用 较 少 的 复制 保留 区 ， 并 且 可 以 在 保留 区 空间 不 足 的 情况 下 切换 到 整理 式 回收 ， 
则 空间 利用 率 可 以 大 幅 提升 [McGachey and Hosking，2006]。 但 是 ， 由 于 复制 保留 区 空间 不 
足 的 情况 只 有 在 回收 过 程 中 才 会 发 生 ， 所 以 回收 器 必须 能 够 随时 在 复制 和 标记 两 种 操作 之 间 
进行 切换 。 图 9.7a 所 展示 的 是 回收 器 完成 所 有 存活 对 象 鉴 别 之 后 堆 的 状态 ， 此 时 复制 保留 
区 已 被 填 满 ， 其 中 已 完成 复制 的 对 象 为 黑色 ， 其 余 的 年 轻 代 存活 对 象 为 灰色 。 接 下 来 的 操作 
将 是 把 所 有 已 标记 对 象 整理 到 新 生 代 的 一 端 ( 见 图 9.7b)， 这 通常 需要 多 次 遍历 。 不 幸 的 是 ， 
整理 过 程 会 破坏 年 轻 代 黑色 对 象 中 所 记录 的 转发 地 址 。McGachey 和 Hosking 的 解决 方案 是 : 
先 对 灰色 对 象 进行 一 次 遍历 并 更 新 其 中 指向 黑色 对 象 的 引用 ,然后 再 使 用 Jonkers 的 滑动 式 
整理 器 (参见 3.3 节 ) 移动 已 标记 的 灰色 对 象 ， 这 一 引线 算法 无 需 在 对 象 头 域 中 占用 额外 的 
头 域 。 更 好 的 解决 方案 可 能 是 使 用 Compressor 算法 (参见 3.4 节 )， 因 为 它 不 仅 无 需 引 入 任 
何 额 外 头 域 ， 而 且 也 不 会 修改 存活 对 象 的 任何 一 个 域 。 他 们 基于 MMTk 回收 器 进行 实验 并 
发 现 ， 如 果 将 复制 保留 区 的 大 小 设置 为 堆 空间 的 10%， 则 无 论 年 老 代 使 用 复制 式 还 是 标记 一 
清扫 回收 ， 整 体 性 能 平均 都 会 提升 4%， 某 些 情 况 下 甚至 会 达到 20%。 


| 








年 轻 代 
a) 存活 对 象 已 完成 标记 ， 且 部 分 对 象 已 完成 复制 
| eee eee | 


年 轻 代 


b) 整理 剩余 的 已 标记 对 象 
图 9.7 年 轻 代 在 复制 和 标记 之 间 进 行 切换 : a) 复制 保留 区 已 满 。 年 轻 代 中 的 黑色 对 象 已 经 复制 到 年 老 
代 ， 灰 色 对 象 已 完成 标记 但 尚未 复制 ， 其 他 对 象 均 为 死亡 对 象 ; b) 整理 过 程 将 灰色 对 象 滑动 到 
紧邻 年 老 代 的 一 端 ， 并 扩展 年 老 代 的 大 小 
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事实 证 明 ， 对 于 许多 应 用 程序 而 言 ， 分 代 垃 圾 回收 都 可 以 十 分 高 效 地 管理 寿命 较 短 的 对 
象 。 但 正如 我 们 在 9.7 节 所 看 到 的 ， 寿 命 稍 长 8 的 对 象 处 理 起 来 则 较为 琼 手 。 分 代 垃 圾 回收 本 
质 上 是 仅 回 收 堆 中 较为 年 轻 的 对 象 ， 同 时 忽略 其 他 较 老 对 象 ， 但 在 每 次 回收 中 ， 年 轻 对 象 集 
合 的 具体 范围 取决 于 需要 回收 的 分 代 的 数量 ， 即 : 是 仅 回 收 新 生 代 ， 还 是 也 需要 回收 中 间 分 
代 (在 使 用 超过 两 个 分 代 的 系统 中 )， 或 者 是 要 进行 整 堆 回收 。 某 些 自 适应 策略 具有 控制 对 象 
提升 率 的 能 力 ， 我 们 可 以 将 其 看 作 是 通过 对 各 年 轻 代 的 年 龄 范围 进行 调整 ， 使 得 年 轻 代 对 象 


O 但 不 是 最 长 。 一 一 译 者 注 
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有 更 多 的 时 间 到 达 死 亡 。 但 分 代 垃 圾 回收 并 非 避 免 整 堆 回收 的 唯一 途径 (我 们 将 在 下 一 章 介 
绍 其 他 基于 非 年 龄 特征 的 回收 策略 )， 基 于 年 龄 的 回收 (age-based collection) 策略 可 能 包括 : 

仅 针 对 最 年 轻 分 代 的 回收 (分 代 回 收 ) ( youngest-only collection): 回收 器 仅 处 理 堆 中 最 
年 轻 的 对 象 。 

仅 针 对 最 年 老 分 代 的 回收 (oldest-only collection) : 可 以 想象 一 个 仅 处 理 堆 中 最 年 老 对 
象 的 回收 器 ， 即 假定 更 老 的 对 象 更 容易 死亡 。 但 这 一 策略 通常 都 十 分 低 效 ， 因 为 它 会 花费 大 
量 的 时 间 频 繁 地 处 理 永 生 对 象 或 者 非常 长 寿 的 对 象 。 而 正 是 这 一 原因 ， 使 许多 回收 器 刻意 避 
免 对 这 些 古 老 的 “沉积 物 ” 进 行 处 理 。 

中 年 优先 回收 (older-first collection): 回收 器 将 主要 精力 集中 在 中 年 (middle-aged) 对 
象 的 处 理 上 。 这 一 策略 可 以 确保 年 轻 代 对 象 有 足够 的 时 间 到 达 死 亡 ， 同 时 也 避免 对 长 寿 对 象 
进行 处 理 (当然 也 会 偶尔 对 其 进行 处 理 )。 

中 年 优先 回收 存在 两 个 技术 难点 : 一 是 如 何 确定 中 年 对 象 ， 二 是 由 于 两 个 方向 的 回收 相 
关 指 针 (从 年 老 到 中 年 、 从 年 轻 到 中 年 ) 都 需要 记录 ， 因 而 记忆 集 的 管理 复杂 度 会 有 所 提升 。 
下 面 我 们 将 介绍 解 两 种 解决 方案 。 

更 新 中 年 优先 回收 (renewal older-first garbage collection) 。 一 种 获取 对 象 “年 龄 ”的 方 
案 是 计算 对 象 自 创 建 以 来 所 经 历 的 时 间 ， 或 者 距 其 上 一 次 经 历 垃 圾 回收 的 时 间 ， 并 以 两 者 的 
最 小 值 为 准 [Clinger and Hansen, 1997; Haansen, 2000; Hansen and Clinger，2002]。 更 新 
中 年 优先 回收 通常 仅 回 收 堆 中 “最 老 ” 的 前 级 。 为 简化 记忆 集 的 管理 ， 回 收 器 将 堆 划 分 为 
个 大 小 相等 的 阶 ， 同 时 将 编号 最 小 的 空 阶 用 于 对 象 分 配 。 当 堆 空 间 耗 尽 时 ， 回 收 器 将 对 最 老 
的 一 j 阶 进行 回收 ( 见 图 9.8 中 的 灰色 
窗口 )， 并 将 其 中 的 存活 对 象 复制 到 与 第 
1 阶 相 邻 的 复制 保留 区 (图 9.8 中 的 黑色 
区 域 )。 此 时 ， 存 活 对 象 将 得 到 “更 新 ”， 
此 时 第 7 一 1 阶 成 为 最 老 的 阶 。 在 图 9.8 
中 ， 堆 在 虚拟 地 址 上 向 右 增长 ， 从 而 简 
化 了 写 屏障 的 设计 ， 即 记忆 集 只 需要 对 
方向 从 右 向 左 且 来 源 地 址 大 于 /的 指针 进 
行 记录 。 这 种 堆 排 列 方式 在 64 位 的 应 用 
程序 中 通常 不 会 遇 到 问题 ， 但 是 在 32 位 图 9.8 每 次 回收 完成 后 ， 存 活 对 
系统 中 则 很 容易 耗 尽 虚拟 地 址 空间 。 为 s i i Aita 
此 ,更 新 中 年 优先 回收 必须 在 触 达 堆 的 末端 时 回 绕 到 堆 的 始 端 ， 并 且 对 各 阶 重 新 进行 编号 ， 
此 时 写 屏障 在 捕捉 回收 相关 指针 时 便 不 能 简单 地 依赖 地 址 比较 ， 它 必须 对 来 源 和 目标 对 象 所 
在 阶 的 编号 进行 比较 。 该 方案 的 第 二 个 缺点 在 于 ， 对 象 在 堆 中 的 排列 顺序 并 非 按照 其 真正 的 
年 龄 进行 的 ， 而 是 不 可 道 地 混杂 在 一 起 。Hansen 在 Scheme 语言 的 Larceny 实现 中 引入 一 个 
标准 的 新 生 代 以 过 滤 掉 大 量 回收 相关 指针 (然后 仅 使 用 更 新 中 年 优先 回收 方式 管理 年 老 代 )， 
但 其 记忆 和 集 所 占用 的 空间 依然 十 分 庞大 。 

延迟 中 年 优先 回收 ( deferred older-first garbage collection)。 该 方案 可 以 确保 对 象 在 
堆 中 按照 其 真实 年 龄 排列 [Stefanović 等 ，1999]。 延 迟 中 年 优先 回收 使 用 一 个 固定 大 小 的 
回收 窗口 (图 9.9 中 的 灰色 区 域 )， 并 在 堆 中 沿 着 年 老 到 年 轻 的 方向 进行 滑动 。 当 堆 空 间 耗 
尽 时 ， 回 收 器 仅 对 回收 窗口 内 的 对 象 进 行 回 收 ， 同 时 忽略 其 他 更 老 的 或 者 更 年 轻 的 对 象 
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(图 9.9 中 的 白色 区 域 )。 回 收 完成 后 ， 所 有 存活 对 象 (图 9.9 中 的 黑色 部 分 ) 都 被 将 复制 到 最 
老 对 象 之 后 的 区 域 ， 而 回收 所 得 的 空间 将 分 配方 向 一 | 
被 添加 到 堆 的 最 年 轻 端 ( 即 最 右 端 )。 下 

一 轮 的 回收 窗口 将 与 存活 对 象 的 年 轻 端 紧 
邻 。 该 方案 寄 硕 望 于 回收 器 可 以 在 堆 中 达 
到 一 个 最 佳 回 收 状 态 ， 在 该 状态 下 ， 回 收 
窗口 中 仅 有 少量 对 象 存 活 ， 同 时 回收 器 也 
拥有 较 低 的 标记 一 构造 率 ， 因 而 回收 窗口 
将 会 以 十 分 缓慢 的 速度 滑动 (正如 图 9.9 7 a 

中 最 后 一 行 所 示 )。 然 而 ， 有 时 ， 当 回收 RFE 最 年 轻 




















窗口 触 达 堆 的 最 年 轻 边 界 时 ， 回 收 器 便 需 ”图 9.9 延迟 中 年 优先 回收 。 该 算法 使 用 一 个 中 年 回收 
要 将 回收 窗口 重 置 到 堆 的 最 老 端 。 在 延迟 窗口 来 选 定 需要 回收 的 对 象 。 一 次 回收 完成 
中 年 优先 回收 算法 中 ， 尽 管 对 象 依 照 其 真 后 ,存活 对 象 将 紧邻 上 一 次 回收 的 存活 对 象 存 
实 年 龄 排列 ， 但 其 赋值 器 写 屏 障 的 实现 却 放 。 该 算法 期 待 回收 器 找到 一 个 存活 率 很 低 的 
十 分 复杂 ， 因 为 其 必须 对 所 有 从 年 老区 指 最 佳 状态 ， 此 时 回收 窗口 将 以 很 慢 的 速度 滑动 


向 回收 窗口 的 指针 、 所 有 老 -新 指针 、 所 有 的 新 - 老 指 针 (除非 该 指针 的 来 源 位 于 回收 窗口 
中 ) 进行 记录 。 类 似 的 ， 回 收 器 的 复制 写 屏障 也 必须 记录 所 有 从 存活 对 象 指向 其 他 区 域 的 指 
针 、 所 有 从 年 轻 存 活 对 象 指向 年 老 存活 对 象 的 指针 。 另 外 ， 延 迟 中 年 优先 回收 通常 会 将 堆 划 
分 为 多 个 内 存 块 ， 每 个 内 存 块 都 有 其 自身 的 “死亡 时 间 ”( 且 必须 确保 较 老 内 存 块 的 死亡 时 
间 大 于 较 年 轻 的 内 存 块 )。 此 时 写 屏 障 的 实现 可 以 以 内 存 块 死亡 时 间 的 比较 结果 为 基础 进行 ， 
但 同时 也 必须 小 心 处 理 死亡 时 间 溢 出 的 情况 [Stefanovic 等 ，2002]。 

与 其 他 分 代 回 收 策略 相 比 ， 延 迟 中 年 优先 回收 可 以 降低 最 大 停顿 时 间 ， 但 与 更 新 中 年 优 
先 回收 类 似 ， 该 策略 需要 对 更 多 的 指针 进行 追踪 。 在 地 址 空间 较 小 时 ， 中 年 优先 回收 写 屏障 
的 复杂 性 决定 了 其 并 不 比 其 他 回收 方案 更 好 ,但 当地 址 空间 更 大 时 (如 64 位 系统 )， 写 屏障 
的 实现 便 可 简化 ， 该 回收 方案 也 更 加 具有 竞争 力 。 


9.11 带 式 回收 框架 


本 章 我 们 已 经 介绍 了 多 种 不 同 的 基于 年 龄 的 回收 策略 ， 这 些 回 收 策略 的 基本 指导 思想 大 
体 上 可 以 总 结 如 下 : 

e“ 大 多 数 对 象 都 在 年 轻 时 死亡 ”， 即 弱 分 代 假 说 [Ungar, 1984]. 

o 分 代 回 收 器 会 避免 对 年 老 对 象 进 行 频繁 回收 。 

o 增 量 回收 可 以 改善 回收 停顿 时 间 。 在 分 代 垃 圾 回收 器 中 ， 新 生 代 的 空间 通常 较 小 ; 

其 他 回收 技术 通常 也 会 限制 待 回收 空间 的 大 小 ， 例 如 成 熟 对 象 空间 回收 器 (mature 
object space collector)( 也 称 为 火车 回收 器 ) [Hudson and Moss, 1992]. 

o 在 较 小 的 诞生 空间 中 使 用 顺序 分 配 可 以 提升 数据 的 局 部 性 [Blackburn 等 ，2004a]。 

o 对 象 需要 足够 的 时 间 到 达 死 亡 。 

带 式 垃圾 回收 框架 (beltway garbage collection framework) [Blackburn 等 ，2002] 对 上 
述 所 有 思想 进行 了 综合 ， 它 可 以 配置 成 任意 一 种 基于 分 区 策略 的 复制 式 回 收 器 。 带 式 回收 
器 的 一 个 回收 单元 称 为 回收 增 量 (increment)， 多 个 回收 增 量 可 以 组 合成 队列 ， 称 为 回收 带 
(belt)。 图 9.10 中 ， 每 一 行 代表 一 个 回收 带 ， 回 收 带 上 的 每 个 “托盘 ”代表 一 个 回收 增 量 。 
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尽管 每 次 回收 所 选 定 的 回收 增 量 通 常 是 最 年 轻 回 收 带 中 非 空 且 最 老 的 一 个 ,但 整体 来 说 ， 回 
收 带 内 部 的 各 回收 增 量 通常 依照 先进 先 出 的 方式 进行 独立 回收 ， 各 条 回收 带 之 间 同 样 也 符合 
先进 先 出 的 回收 顺序 。 提 升 策略 决定 了 一 次 回收 完成 后 存活 对 象 的 目标 空间 ， 即 它们 有 可 
能 被 复制 到 同一 回收 带 中 的 其 他 回收 增 量 里 ， 也 有 可 能 被 提升 到 更 高 一 级 回收 带 中 的 某 一 回 
收 增 量 里 。 需 要 注意 的 是 ， 带 式 回 收 器 并 非 另 一 种 分 代 回 收 器 ， 更 不 能 简单 地 将 回收 带 与 分 
代 混 为 一 谈 。 其 主要 区 别 在 于 ， 分 代 回 收 需 通常 会 回收 某 一 回收 带 中 的 所 有 回收 增 量 ， 而 带 
式 回 收 框架 可 以 对 每 个 回收 增 量 独 立 进 行 回收 。 


存活 对 象 
rn 分 配 zz | pae 
a) 半 区 复制 回收 b) 新 生 代 大 小 固定 的 分 代 回 收 
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g) XX HR EN h) XX.100 带 式 回收 
图 9.10 ” 带 式 回收 框架 。 该 框架 可 以 配置 成 任意 一 种 复制 式 回收 器 。 每 一 幅 图 演示 了 其 对 应 算法 中 新 生 
对 象 将 在 哪个 回收 增 量 中 创建 、 哪 个 回收 增 量 会 优先 得 到 回收 、 存 活 对 象 将 被 复制 到 哪个 回收 
增 量 中 
Blackburn et al [2002], doi: 10.1145/512529.512548. 
©2002 Association for Computing Machinery, Inc.， 经 许可 后 转载 


图 9.10 展示 了 带 式 回 收 器 对 其 他 回收 算法 的 模拟 ， 其 中 的 某 些 算法 我 们 已 经 在 前 面 的 
章节 中 介绍 过 ， 而 另 一 些 则 是 在 本 书 中 新 出 现 的 回收 算法 。 简 单 的 半 区 复制 回收 器 可 以 看 
作 一 个 包含 两 个 回收 增 量 的 回收 带 ( 见 图 9.10a)， 每 个 回收 增 量 即 为 堆 空 间 的 一 半 。 一 次 回 
收 完成 后 ， 第 一 个 回收 增 量 ( 即 来 源 空间 ) 中 的 所 有 存活 对 象 被 复制 到 第 二 个 回收 增 量 〈 即 
目标 空间 ) 中 。 分 代 垃 圾 回收 器 的 每 个 分 代 都 可 以 看 作 是 一 个 独立 的 回收 带 。 对 于 新 生 代 
大 小 固定 的 分 代 回 收 器 而 言 ， 其 第 0 个 回收 带 内 部 的 回收 增 量 无 法 变化 〈 见 图 9.10b)， 而 
在 Appel 式 回 收 器 中 ， 两 个 回收 带 中 的 回收 增 量 都 可 以 自由 增长 直至 堆 可 用 空间 耗 尽 ( 见 图 


O 这 里 的 先进 先 出 的 意思 是 越 早 用 于 分 配 的 回收 带 将 越 早 得 到 回收 。 一 一 译 者 注 
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9.10c)。 基 于 衰老 半 区 的 回收 算法 可 以 通过 增 大 第 0 个 回收 带 中 回收 增 量 的 数量 来 模拟 ( 见 
图 9.10d)。 但 与 9.6 节 所 介绍 的 衰老 半 区 算法 不 同 ， 此 处 增加 回收 增 量 的 目的 是 减少 停顿 时 
间 ， 因 为 次 级 回收 并 不 会 处 理 第 二 个 回收 增 量 中 的 不 可 达 对 象 。 带 式 回收 框架 也 可 以 模拟 更 
新 中 年 优先 回收 与 延迟 中 年 优先 回收 。 图 9.10e 可 以 清晰 地 反映 出 更 新 中 年 优先 回收 是 如 何 
将 不 同年 龄 的 对 象 混杂 在 一 起 的 。 延 迟 中 年 优先 回收 使 用 两 个 回收 带 ， 当 回收 窗口 触 达 第 
一 个 回收 带 的 最 年 轻 端 时 ， 回 收 器 需要 将 两 个 回收 带 置 换 ( 见 图 9.10f)。 借 助 于 带 式 回收 框 
架 ,Blackburn 等 人 还 开发 出 了 其 他 一 些 新 的 复制 式 回收 算法 。XXX 带 式 回 收 算法 ( 见 图 9.10g) 
相当 于 是 在 Appel 式 回收 器 中 引入 了 回收 增 量 ， 即 当 第 1 个 回收 带 被 填 满 时 ， 回 收 器 仅 处 
理 第 一 个 回收 增 量 。 此 处 的 意味 着 回收 增 量 可 以 占用 的 最 大 空间 占 整 个 堆 空 间 的 百分比 ， 
因此 100.100 带 式 算 法 即 等 价 于 标准 的 Appel RAMEE. MF AX BARI TIA. WR 
X< 100， 则 算法 的 完整 性 得 不 到 保证 ， 因 为 环 状 垃圾 可 能 会 跨越 第 1 个 回收 带 中 的 多 个 回 
收 增 量 。 而 在 马 系 100 带 式 算法 中 ,第 3 个 回收 带 仅 包 含 一 个 回收 增 量 ， 且 该 回收 增 量 可 以 
增长 到 与 堆 空间 大 小 相同 的 规模 ， 因 而 其 完整 性 可 以 得 到 保证 ( 见 图 9.10h)。 

假设 在 所 有 配置 中 回收 器 都 仅 对 最 年 轻 回 收 带 中 最 老 的 回收 增 量 进行 回收 ， 则 写 屏障 仅 
需要 记录 从 年 老 回 收 带 指向 年 轻 回收 带 的 指针 ， 以 及 同一 个 回收 带 中 从 年 轻 回 收 增 量 指向 
年 老 回收 增 量 的 指针 。 如 果 我 们 从 0 开始 对 所 有 的 回收 带 按照 从 年 轻 到 年 老 的 顺序 编号 ， 则 
每 个 增 量 可 以 用 <b,i> 来 表示 ， 其 中 4。 为 回收 带 的 编号 ,i 为 回收 增 量 在 回收 带 中 的 索引 号 。 
此 时 ， 对 于 从 <b, i> 指向 <b, j> 的 指针 ， 如 果 满 足 bj< b, V (b= b; 人 i < 由， 则 写 屏障 需 
要 对 该 指针 进行 记录 。 当 然 ， 也 可 以 使 用 较 小 的 整数 nn, 对 所 有 的 回收 增 量 统一 进行 编号 ， 
此 时 判定 某 一 指针 是 否 需 要 记录 的 标准 可 以 简化 为 nj< n;， 但 这 一 策略 可 能 需要 侦 尔 对 各 回 
收 增 量 的 编号 进行 调整 ， 例 如 将 一 个 新 的 回收 增 量 添加 到 某 一 回收 带 时 。 一 种 典型 的 实现 方 
案 是 将 地 址 空间 划分 为 多 个 帧 (frame)， 而 每 个 回收 增 量 都 位 于 不 同 的 帧 上 。 如 果 地 址 空间 
足够 大 ， 则 可 以 采用 类 似 于 中 年 优先 回收 的 布局 方案 ,， 即 将 回收 增 量 直接 与 内 存 地 址 绑 定 ， 
此 时 新 老 回收 增 量 的 比较 可 以 通过 简单 的 地 址 比较 来 实现 ， 从 而 无 需 再 将 回收 增 量 映射 到 具 
体 的 编号 。 

带 式 回收 器 的 性 能 与 其 具体 的 配置 方式 密切 相关 。 回 收 带 在 堆 中 的 布局 以 及 写 屏障 的 实 
现 至 关 重 要 ， 因 为 这 不 仅 决 定 了 哪些 指针 需要 记录 ， 而 且 决定 了 哪些 对 象 需要 复制 ， 以 及 复 
制 的 目标 空间 。 


9.12 ”启发 式 方法 在 分 代 垃圾 回收 中 的 应 用 


分 代 垃 圾 回收 器 可 以 较 好 地 处 理 短命 对 象 ， 但 其 对 长 寿 对 象 的 处 理 能 力 则 略 显 不 足 ， 这 
一 问题 主要 表现 在 两 个 方面 : 第 一 ,年 老 代 垃 圾 的 回收 不 够 及 时 ， 因 为 没有 哪 种 策略 可 以 确 
保 在 年 老 代 出 现 大 量 垃圾 时 尽快 将 其 回收 ; 第 二 ,年 老 代 的 所 有 长 寿 对 象 都 必须 是 从 年 轻 代 
复制 而 来 的 ， 同 时 为 避免 过 早 地 提升 对 象 ， 某 些 回收 器 要 求 年 轻 代 对 象 在 得 到 提升 之 前 必须 
在 年 轻 代 中 经 历数 次 回收 。 对 于 长 寿 对 象 而 言 ， 这 些 复制 操作 都 相当 于 是 无 用 功 ， 更 好 的 解 
决 方案 是 直接 将 长 寿 对 象 预 分 配 到 其 最 终 可 能 到 达 的 分 代 中 。 

一 些 研 究 者 尝试 通过 分 析 程 序 特定 代码 位 置 所 分 配对 象 的 生命 周期 分 布 来 解决 这 一 问 
题 。 这 一 方案 对 于 虚拟 机 的 开发 者 来 说 具有 一 定 的 可 行 性 ， 因 为 他 们 可 以 知道 在 其 具体 的 虚 
拟 机 中 哪些 数据 结构 会 是 永久 性 的 、 哪 些 库 或 者 代码 对 象 永远 不 会 或 者 至 少 不 太 可 能 被 印 
载 。 这 些 对 象 的 预 分 配 人 逻辑 可 以 在 虚拟 机 内 部 实现 。 
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也 有 研究 者 通过 动态 分 析 ( profiling) 的 方法 识别 长 寿 对 象 。Cheng 4 [1998] 尝试 记录 
程序 中 哪些 位 置 所 分 配 的 对 象 始终 会 得 到 提升 。Blackburn 等 [2001，2007] 统计 堆 达 到 最 
大 规模 时 程序 不 同位 置 所 分 配 的 存活 对 象 在 堆 中 的 比例 ， 并 以 此 作为 寿命 指标 来 预 判 新 分 
配对 象 可 能 的 生命 周期 。 这 两 种 技术 都 需要 对 程序 进行 离线 追踪 并 进行 汇总 分 析 。 开 发 者 
可 以 根据 这 些 信息 对 代码 进行 优化 ， 即 将 新 生 对 象 预 分 配 到 最 合适 的 一 个 分 代 或 永久 对 象 
空间 中 。 该 方案 的 不 足 之 处 在 于 ， 每 种 预 提 升 方案 可 能 都 只 适用 于 某 一 特定 的 程序 ， 为 此 ， 
Blackburn 等 人 提供 了 一 种 通用 的 解决 方案 来 判定 程序 中 哪些 位 置 所 分 配 的 对 象 需要 进行 预 
分 配 (以 引导 映像 或 者 代码 库 的 形式 加 载 到 程序 中 )。 这 一 通用 解决 方案 的 有 效 性 进一步 说 
明了 对 程序 进行 离线 分 析 的 必要 性 。 

Marion 等 [2007] 提出 了 一 种 能 够 实现 真正 预测 (而 非 自我 预测 ) 的 通用 方案 ， 该 方 
案 通过 对 程序 微观 范式 (micro-pattern) [Gil and Maman，2005] 进行 句法 比较 (syntactic 
comparison) 来 判定 哪些 对 象 需要 预 分 配 。 该 方案 的 实现 需要 依赖 一 个 事先 生成 的 知识 库 
(通过 机 器 学 习 方 法 对 大 量程 序 的 追踪 结果 进行 分 析 ， 进 而 统计 出 每 种 微观 范式 所 分 配对 象 
的 生命 周期 特征 )。Harris[2000] 和 Jump 等 [2004] 使 用 实时 采样 的 方法 进行 预 分 配 判定 ， 并 
取得 一 定 的 性 能 提升 。 此 类 方法 通常 可 以 较 好 地 判定 出 程序 中 生命 周期 趋向 于 永久 的 对 象 的 
分 配 ， 但 其 对 于 简单 的 长 寿 对 象 或 者 中 等 寿命 对 象 的 判定 能 力 则 稍 显 不 足 。 

基于 “相关 对 象 通常 具有 相似 的 生命 周期 ”这 一 规律 ，Guyer 和 McKinley[2004] 尝试 将 
相关 对 象 放置 在 一 起 。 他 们 使 用 编译 时 静态 分 析 的 方法 来 判定 新 分 配对 象 将 与 哪个 已 分 配对 
象 相关 ， 然 后 将 新 生 对 象 与 其 相关 对 象 放置 在 相同 的 空间 。 这 一 分 析 过 程 既 不 需要 执行 得 十 
分 彻底 ， 也 不 强制 要 求 将 具有 相似 生命 周期 的 对 象 放置 在 一 起 。 该 策略 不 仅 可 以 减少 复制 次 
数 、 显 著 降低 回收 时 间 ， 同 时 还 可 以 减轻 写 屏 障 的 压力 。 

对 于 懒惰 函数 式 语言 中 的 分 代 垃 圾 回收 器 ， 只 有 更 新 待 计算 值 (thunk) 时 才 需 要 引入 写 
屏障 ， 因 为 其 他 的 写 操 作 必 然 都 是 针对 较为 年 轻 的 对 象 。 每 个 待 计算 值 最 多 只 会 更 新 一 次 ， 
除 此 之 外 其 他 对 象 都 不 可 改变 。Marlow 等 [2008] 将 这 一 观察 结果 应 用 在 基于 阶 (step-based) 
的 分 代 式 回收 器 中 ， 即 尽量 将 对 象 提升 到 与 其 某 一 引用 来 源 相 同 的 分 代 或 者 阶 ， 理 想 情 况 
下 ， 这 一 引用 来 源 应 当 是 该 对 象 的 所 有 引用 来 源 中 最 老 的 一 个 。 即 使 对 于 可 写 对 象 ， 所 有 针 
对 新 生 对 象 的 写 操作 也 必然 不 会 导致 回收 相关 指针 的 出 现 。Zee 和 Rinard[2002] 使 用 静态 分 
析 的 方法 来 去 除 Java 语言 中 针对 这 些 对 象 的 写 屏 障 ， 其 结果 表明 ， 某 些 应 用 程序 的 整体 执 
行 时 间 会 因此 得 到 小 幅 提 升 。 


9.13 ”需要 考虑 的 问题 


事实 证 明 ， 分 代 垃 圾 回收 器 提供 了 一 种 高 效 的 对 象 组 织 方式 ， 并 且 可 以 显著 提升 许多 应 
用 程序 的 性 能 。 如 果 限 制 最 年 轻 分 代 的 整体 大 小 ， 且 将 回收 的 主要 工作 集中 在 这 一 代 ， 则 许 
多 应 用 程序 的 期 望 停顿 时 间 可 以 降低 到 难以 察觉 的 水 平 。 分 代 的 组 织 方式 同样 也 可 以 提升 程 
序 的 整体 吞吐 量 ， 这 表现 在 两 个 方面 : 第 一 ， 长 寿 对 象 的 处 理 频率 降低 ， 这 不 仅 减 少 了 长 寿 
对 象 的 处 理 开 销 ， 而 且 使 得 中 年 对 象 有 足够 的 时 间 到 达 死 亡 (因此 无 需 对 其 进行 追踪 ); 第 
二 ， 分 代 回 收 器 在 分 配 新 生 对 象 时 通常 使 用 顺序 分 配 的 策略 ， 其 内 存 访 问 模式 的 可 预测 性 提 
升 了 程序 的 局 部 性 ， 同 时 由 于 大 多 数 写 操作 都 是 针对 最 年 轻 对 象 发 生 的 ， 赋 值 器 的 局 部 性 得 
到 了 进一步 提升 。 

但 是 ， 分 代 垃 圾 回收 咒 并 非 一 剂 万 能 的 灵丹妙药 ， 其 性 能 表现 严重 依赖 于 应 用 程序 中 对 
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象 的 生命 周期 分 布 。 分 代 式 回收 器 对 年 轻 代 的 处 理 更 加 频繁 ， 且 必须 借助 于 写 屏障 ， 而 只 有 
当年 轻 代 回 收 所 带 来 的 平均 回报 率 更 高 时 ， 这 些 开销 才 值 得 付出 。 一 旦 年 轻 代 对 象 不 再 拥有 
较 高 的 死亡 率 ( 即 如 果 绝 大 多 数 对 象 并非 在 年 轻 时 死亡 )， 则 分 代 的 回收 策略 可 能 不 再 适用 。 

分 代 垃 圾 回收 所 能 降低 的 只 是 “期 望 ” 的 停顿 时 间 ， 而 非 最 大 停顿 时 间 。 不 论 如 何 ， 回 
收 器 最 终 都 会 发 起 整 堆 回 收 ， 对 于 这 一 最 差 情况 下 的 回收 停顿 时 间 ， 分 代 的 策略 无 法 解决 ， 
当 堆 空间 较 大 时 间 题 更 其 。 因 此 分 代 垃 圾 回收 并 不 满足 对 回收 停顿 时 间 有 最 大 值 限制 的 硬 实 
时 (hard real-time) 回收 的 要 求 。 

如 果 回 收 器 可 以 通过 移动 对 象 的 方式 来 区 分 年 轻 和 年 老 对 象 ， 则 可 以 简化 分 代 回 收 器 的 
实现 。 物 理 上 的 分 区 不 仅 可 以 带 来 较 高 的 局 部 性 ， 而 且 写 屏障 或 者 回收 器 在 对 年 轻 代 进行 追 
踪 时 按照 空间 进行 判断 效率 更 高 。 当 然 也 可 以 使 用 虚拟 隔离 的 方式 ， 例 如 在 对 象 头 部 通过 一 
个 标记 位 进行 区 分 ， 或 者 将 该 标记 位 置 于 位 图 中 。 

如 何 对 分 代 垃 圾 回收 器 进行 参数 调整 不 仅 困扰 着 回收 器 的 开发 者 ， 也 困扰 着 最 终 用 户 。 
通常 分 代 垃 圾 回收 器 会 具有 众多 的 可 调 参数 ， 且 参数 的 种 类 远 比 简单 的 调整 堆 大 小 要 丰富 得 
多 。 与 此 同时 ， 每 种 回收 器 都 可 能 需要 针对 特定 的 程序 进行 精细 的 调整 。 

在 实现 一 个 具体 的 分 代 垃 圾 回收 器 时 ， 首 先 需要 决定 的 可 能 是 要 不 要 支持 两 个 以 上 的 分 
代 。 选 择 的 结果 很 大 程度 上 取决 于 回收 器 未 来 所 服务 的 应 用 程序 中 对 象 的 分 布 模型 : 如 果 相 
当 一 部 分 对 象 会 活 过 年 轻 代 回收 ， 但 是 在 被 提升 到 年 老 代 后 不 久 便 会 死亡 ， 则 可 以 增加 中 间 
分 代 。 但 根据 我 们 的 经 验 ， 大 多 数 系统 都 只 提供 两 个 分 代 外 加 一 个 永久 对 象 分 代 (或 者 至 少 
默认 配置 如 此 )， 究 其 原因 是 除了 使 用 多 分 带 之 外 ， 还 可 以 通过 其 他 一 些 策略 来 处 理 对 象 过 
早 提升 的 问题 。 

首先 ， 年 轻 代 的 对 象 提 升 率 取决 于 年 轻 代 的 整体 空间 大 小 ， 即 如 果 年 轻 代 整体 空间 更 
大 ， 则 对 象 会 有 更 长 的 时 间 到 达 死 亡 。 某 些 分 代 回 收 器 允许 用 户 指定 年 轻 代 的 大 小 ， 还 有 一 
些 回收 器 允许 年 轻 代 填 满 整个 堆 ， 但 前 提 条 件 是 为 其 他 必需 空间 (包括 年 老 代 以 及 其 他 必需 
的 复制 保留 区 ) 预 留 足够 的 内 存 。 更 复杂 的 回收 器 甚至 可 以 在 动态 分 析 的 基础 上 改变 年 轻 代 
的 大 小 ， 进 而 达到 特定 的 吞吐 量 或 者 停顿 时 间 要 求 。 

其 次 ， 可 以 控制 对 象 得 到 提升 的 年 龄 标准 ， 进 而 控制 年 轻 代 的 提升 率 。 一 种 提升 策略 是 
将 某 一 分 代 回 收 完成 之 后 所 有 的 存活 对 象 集体 提升 到 更 老 的 一 代 。 这 是 最 简单 的 提升 策略 ， 
因为 年 轻 代 的 记忆 集 在 次 级 回收 完成 后 简单 地 清空 即 可 。 另 一 种 提升 策略 是 要 求 对 象 在 得 到 
提升 之 前 必须 经 历数 轮 垃圾 回收 ,但 此 时 就 需要 记录 对 和 象 的 年 龄 。 可 以 在 对 象 头 部 中 占用 几 
个 位 来 记录 年 龄 ， 也 可 以 将 分 代 划 分 为 多 个 子 空 间 ， 并 在 每 个 空间 中 存放 不 同年 龄 段 的 对 
象 ， 还 可 以 将 两 种 方案 相 结合 。 常 见 的 实现 策略 包括 分 阶 系统 以 及 在 新 生 代 中 增加 存活 对 象 
半 区 。 不 论 是 哪 种 策略 ， 同 一 分 代 中 的 子 空间 都 是 在 相同 的 时 间 进 行 回收 的 。 

最 后 ， 还 可 以 避免 对 某 些 特殊 对 象 进行 提升 。 许 多 回收 器 会 开辟 一 块 永 久 对 象 空间 来 存 
放 一 直 会 存活 到 程序 结束 的 对 象 ， 这 些 永久 对 象 通常 在 编译 期 就 可 以 识别 出 来 ， 它 们 包括 回 
收 器 自身 的 数据 结构 ， 以 及 包含 可 执行 代码 的 对 象 (假定 这 些 代 码 无 需 秃 载 )。 

对 象 存活 率 同时 也 会 影响 写 屏 障 的 开销 以 及 记忆 集 的 大 小 。 较 高 的 提升 率 可 能 导致 更 多 
的 分 代 间 指针 产生 ， 此 时 写 屏 障 的 性 能 是 否 会 受到 影响 取决 于 其 具体 实现 ， 我 们 将 在 11.8 
节 进 行 详 细 介 绍 。 写 屏障 可 以 无 条 件 地 记录 指针 写 操 作 ， 也 可 以 过 滤 掉 其 中 与 回收 器 无 关 的 
部 分 。 如 果 记 忆 集 使 用 卡 表 来 实现 ， 则 其 所 需 的 空间 与 其 中 所 记录 的 指针 数量 无 关 ， 而 基于 
顺序 存储 缓冲 区 (sequential store buffer) 或 者 哈 希 表 的 记忆 集 则 无 法 达到 这 一 要 求 。 
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写 屏 障 的 调用 频率 也 取决 于 是 否 需 要 对 各 分 代 对 象 进行 独立 回收 。 如 果 每 个 分 代 都 需要 
独立 回收 ， 则 所 有 的 分 代 间 指针 都 需要 记录 。 但 是 ， 如 果 我 们 可 以 确保 在 对 较 老 分 代 进 行 回 
收 的 同时 也 回收 所 有 较 年 轻 的 分 代 ， 则 写 屏障 只 需要 记录 从 年 老 代 指向 年 轻 代 的 指针 ， 这 通 
常会 大 大 减少 所 需 记录 的 指针 数量 。 需 要 记录 的 指针 数量 还 取决 于 写 屏 障 是 记录 被 修改 的 对 
象 ， 还 是 记录 其 中 具体 被 修改 的 域 。 如 果 使 用 卡 表 来 实现 记忆 集 ， 则 两 种 记录 方式 均 可 。 但 
如 果 使 用 记录 对 象 而 非 记录 域 的 方式 ， 包 含 多 个 分 代 间 指针 的 对 象 只 需要 占用 记忆 集中 的 一 
个 条 目 ， 从 而 减少 了 记忆 集 的 大 小 。 

赋值 器 记录 分 代 间 指针 来 源 的 方式 影响 着 垃圾 回收 的 开销 。 尽 管 较 低 的 记录 精度 可 以 减 
少 写 屏障 的 开销 ， 但 这 却 会 增加 回收 器 的 工作 量 。 使 用 顺序 存储 缓冲 区 记录 来 源 域 的 方式 可 
能 是 最 精确 的 机 制 ， 但 其 中 可 能 包含 重复 记录 。 无 论 是 记录 来 源 对 象 还 是 使 用 卡 表 ， 回 收 器 
都 需要 对 整个 对 象 或 者 卡 进 行 扫 描 才 能 找到 分 代 间 指针 。 

需要 指出 的 是 ， 分 代 的 策略 只 是 进行 堆 分 区 以 提升 回收 效率 的 方式 之 一 ， 下 一 章 我 们 将 
介绍 其 他 分 区 策略 。 


9.14 抽象 分 代 垃圾 回收 


最 后 ， 我 们 将 介绍 如 何 把 6.6 节 的 抽象 垃圾 回收 框架 应 用 在 分 代 垃 圾 回收 上 。 我 们 曾经 
介绍 过 ，Bacon 等 [2004] 将 抽象 追踪 过 程 看 作 一 种 引用 计数 方式 ， 即 在 标记 对 象 时 增加 其 引 
用 计数 。 算 法 9.1 展示 了 基于 两 个 分 代 以 及 集体 提升 策略 的 传统 分 代 垃 圾 回收 算法 的 抽象 。 

与 第 6 章 其 他 抽象 回收 算法 类 似 ， 分 代 垃 圾 回收 的 抽象 算法 也 通过 一 个 多 集合 了 来 记录 
年 轻 代 对 象 被 延迟 的 引用 计数 。 记 忆 集 可 以 看 作 是 所 有 从 更 老 的 分 代 指 向 年 轻 分 代 的 指针 集 
合 ， 而 多 集合 了 中 所 记录 的 条 目 则 与 记忆 集中 的 条 目 一 一 对 应 ， 正 因 如 此 ，aecNursery 方法 
才 需 要 把 即将 被 覆盖 的 柳 从 多 集合 I 中 移 除 。 如 果 某 一 年 轻 代 对 象 n 存在 于 多 集合 IT 中， 则 
分 代 回 收 器 会 将 其 保留 。 对 象 n 在 多 集合 I 中 出 现 的 次 数 相当 于 其 被 年 老 代 对 象 所 引用 的 次 
数 。 追 踪 式 回收 器 可 以 使 用 一 个 位 来 替代 对 象 n 的 引用 计数 。 

当 执 行 collectNursery 方法 时 ， 多 集合 1 的 初始 值 是 年 轻 代 中 引用 计数 非 零 的 对 象 集 
合 ， 当 然 此 处 的 引用 计数 只 考虑 了 来 自 年 老 代 对 象 的 引用 。 此 时 的 多 集合 7 也 相当 于 是 延 
迟 引 用 计数 中 的 零 引 用 表 。 当 rootsnursery 方法 将 来 自 根 集合 的 引用 增加 到 多 集合 7 之 后 ， 
scanNursery 方法 从 多 集合 7 开始 进行 追踪 ， 最 后 由 sweepNursery 方法 执行 清扫 。 清 扫 过 程 
将 会 把 存活 对 象 从 年 轻 代 移出 并 提升 到 年 老 代 ， 同 时 将 所 有 不 可 达 的 年 轻 代 对 象 (也 就 是 抽 
象 引 用 计数 为 零 的 对 象 ) 回收 。 需 要 注意 的 是 ， 算 法 9.1 的 第 18 行 所 执行 的 操作 是 将 所 有 年 
轻 代 存活 对 象 集体 提升 到 年 老 代 ， 对 此 处 的 操作 进行 修改 便 可 以 模拟 其 他 提升 策略 。 


算法 9.1 抽象 分 代 垃圾 回收 (回收 过 程 ) 


atomic collectNursery(I): 
rootsNursery(I) 
scanNursery/(I) 
sweepNursery() 


scanNursery(W): 
while not isEmpty(W) 
_ src + remove(W) 
p(src) + p(src)+1 /* src 从 白色 变 为 灰色 */ 
10 if p(src) = 1 
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for each fld in Pointers(src) 
ref + xfld 
if ref in Nursery 
W + W + [ref] 
sweepNursery(): 
while not isEmpty(Nursery) 
node + remove(Nursery) /* 集体 提升 */ 
if p(node) = 0 /* 节点 为 白色 */ 
free(node) 
rootsNursery(I) 
for each fld € Roots 
ref ¢ xfld 


if ref # null and ref € Nursery 
I + I + [ref] 
New(): 
ref + allocate() 
if ref = null 
collectNursery(I) 
ref + allocate() 
if ref = null 
collect() /* 使 用 追踪 式 回收 、 引 用 计数 回收 等 策略 进行 整 扒 回收 */ 
ref + allocate() 
if ref = null 
error "Out of memory" 
p(ref) + 0 /* 新 分 配 的 对 象 为 黑色 */ 


Nursery + Nursery U {ref} /* 在 新 生 代 中 分 配 */ 
return ref 


incNursery(node): 
if node in Nursery 
I + I + [node] 


decNursery(node): 
if node in Nursery 
I + I — [node] 


Write(src, i, ref): 
if src # Roots and src ¢ Nursery 
incNursery(ref) 
decNursery(src[i]) 
src[i] + ref 
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其 他 分 区 策略 





上 一 章 我 们 介绍 了 分 代 垃 圾 回收 以 及 其 他 基于 对 象 年 龄 的 回收 策略 ， 这 些 算法 均 按 照 对 
象 的 年 龄 将 其 分 区 ， 并 在 回收 时 刻 依照 某 种 年 龄 特征 选择 一 个 分 区 进行 回收 ， 例 如 分 代 垃 圾 
回收 器 会 优先 回收 最 年 轻 的 分 区 (或 者 分 代 )。 尽 管 这 一 策略 在 许多 应 用 程序 中 都 表现 得 十 
分 高 效 ， 但 它 并 不 能 解决 回收 器 所 面临 的 所 有 问题 。 在 基于 年 龄 的 回收 框架 之 外 ， 本 章 将 介 
绍 其 他 基于 堆 空 间 分 区 的 回收 策略 。 

本 章 将 首先 介绍 最 常见 的 一 种 分 区 策略 ， 即 为 大 对 象 划分 出 单独 的 空间 ; 然后 再 介绍 如 
何 基于 对 象 图 的 拓扑 结构 来 进行 堆 划分 ; 接 下 来 将 分 析 在 线程 栈 或 者 特定 区 域 进 行 分 配 的 可 
能 性 ; 最 后 我 们 将 讨论 混合 式 堆 分 区 算法 ， 以 及 在 不 同时 间或 使 用 不 同 算法 对 不 同 空间 进行 
回收 的 策略 。 


10.1 大 对 象 空间 


大 对 象 空间 是 最 常见 的 堆 分 区 策略 之 一 。 可 以 将 “大 ”的 标准 基于 对 象 的 绝对 大 小 来 定 
义 (例如 大 于 1024 字 节 [Ungar and Jackson，1988]， 或 者 相对 于 分 配器 所 使 用 的 内 存 块 的 
大 小 [Boehm and Weiser，1988])， 也 可 以 相对 于 堆 的 大 小 [Hosking 等 ，1992]。 大 对 象 满 足 
我 们 在 第 8 章 所 介绍 的 多 个 分 区 标准 : 其 分 配 成 本 通常 较 高 ， 且 更 容易 产生 内 存 碎 片 (包括 
内 部 碎片 以 及 外 部 碎片 )， 因 此 值得 为 其 使 用 一 些 特殊 的 管理 策略 (即使 所 选择 的 策略 不 太 
适合 管理 较 小 对 象 )。 如 果 将 大 对 象 分 配 在 以 复制 方式 进行 回收 的 空间 ， 则 复制 保留 区 的 空 
间 开 销 可 能 会 非常 大 ， 同 时 复制 大 对 象 的 开销 也 十 分 高 昂 〈 如 果 对 象 本 身 包含 较 大 的 指针 数 
组 ， 则 复制 的 开销 主要 取决 于 更 新 指针 域 及 其 子 节点 的 处 理 开 销 )。 正 是 由 于 这 些 原因 ， 大 
对 象 空间 通常 使 用 那些 不 会 在 物理 上 移动 对 象 的 算法 来 管理 。 对 于 非 移 动 式 算 法 所 带 来 的 
内 存 碎 片 问 题 ， 可 以 考虑 偶尔 对 大 对 象 空间 进行 整理 [Lang and Dupont, 1987 ; Hudson and 
Moss, 1992]. 

大 对 象 空间 的 实现 及 其 管理 方式 存在 多 种 解决 方案 。 最 简单 的 方案 是 采用 第 7 章 所 介 
绍 的 空闲 链表 分 配器 外 加 标记 = 清扫 回收 器 进行 回收 ， 另 外 也 可 以 将 非 移 动 式 大 对 象 空间 
与 包括 复制 式 算法 在 内 的 多 种 回收 算法 相 结合 。 有 些 方案 将 大 对 象 拆 分 为 (可 能 是 固定 大 小 
的 ) 头 部 和 主体 [Caudill and Wirfs-Brock, 1986; Ungar and Jackson, 1988, 1992; Hosking 
等 ，1992]， 主 体 部 分 保存 在 非 移 动 的 区 域 ， 而 头 部 则 可 以 与 其 他 小 对 象 采 用 相同 的 方式 
管理 。 头 部 也 可 以 使 用 分 代 垃 圾 回收 器 进行 管理 ， 但 研究 者 们 对 于 是 和 否 应 当 提升 大 对 象 头 
部 仍 存在 分 歧 (如 果 不 提升 ， 则 当 大 对 象 死 亡 后 ， 回 收 器 便 可 尽快 回收 其 所 占用 的 较 大 空 
间 [Ungar and Jackson，1992])。 还 有 一 些 Java 虚拟 机 (包括 Sun 的 ExactVM [Printezis, 
2001], Oracle 的 JRockit 以 及 Microsoft 的 Marmot [Fitzgerald and Tarditi, 2000]) 并 不 针对 
大 对 象 开辟 独立 的 空间 ， 而 是 直接 将 其 分 配 在 年 老 代 ， 这 是 因为 大 对 象 通常 都 会 存活 一 定 的 
时 间 ， 而 预 分 配 策略 可 以 节省 提升 过 程 的 复制 开销 。 
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10.1.1 转 轮回 收 器 
对 象 的 复制 或 者 移动 也 可 以 是 逻辑 上 的 而 非 物 理 上 的 。 本 节 我 们 将 介绍 转 轮回 收 器 ， 下 
一 节 我 们 将 介绍 如 何在 操作 系统 的 支持 下 逻辑 地 “移动 ” 对象。 根据 三 色 抽 象 法 则 ， 妃 踪 式 
回收 器 可 以 将 堆 中 对 象 划分 为 四 个 集合 : 黑色 (已 完成 扫描 )、 灰 色 (已 访问 到 但 尚未 完成 扫 
H) HE (尚未 访问 到 ) 以 及 空闲 内 存 。 回 收 器 在 追踪 过 程 中 不 断 对 灰色 集合 进行 处 理 ， 直 
到 该 集合 变 空 为 止 。 不 同 的 回收 算法 对 不 同 集合 的 处 理 方式 不 同 。 转 轮回 收 器 [Baker, 1992a] 
虽然 是 非 移动 式 回 收 器 ， 但 它 同时 又 兼 具 半 区 复制 算法 的 一 些 优点 。 虽 然 该 回收 器 原本 是 作 
为 一 种 增 量 回收 器 来 设计 的 ， 但 它 同 时 也 可 以 较 好 地 应 用 于 万 物 静止 式 回收 中 的 大 对 象 管理 。 
转 轮回 收 器 以 环 状 双向 链表 来 组 织 对 象 ( 见 图 10.1 )， 从 逆 时 针 方 向 来 看 ， 环 的 组 成 依 
次 是 黑色 分 段 、 灰 色 分 段 、 白 色 分 段 以 及 空闲 分 段 。 在 整个 堆 中 ， 黑 色 与 灰色 分 段 构 成 了 
目标 空间 ， 而 白色 分 段 相 当 于 是 来 源 
空间 。 回 收 器 的 操作 需要 用 到 四 个 指 
针 : 指针 scan 指向 灰色 分 段 的 起 始 
地 址 ， 同 时 也 是 灰色 与 黑色 分 段 的 
分 界 点 〈 与 第 4 章 的 Cheney 扫描 类 
似 )， 指 针 Ba 和 指针 T 分 别 指向 白色 
来 源 空间 的 尾部 和 首部 ， 指 针 free 
则 是 黑色 分 段 与 空闲 分 段 的 分 界 点 。 
在 执行 万 物 静 止 式 回收 之 前 ， 所 
有 对 象 均 为 黑色 ， 且 均 位 于 目标 空间 
中 。 新 对 象 的 分 配 是 通过 顺 时 针 方 向 
移动 指针 free 完 成 的 ， 该 操作 相当 
于 是 从 空闲 分 段 中 摘 下 一 个 内 存单 元 
并 将 其 插入 到 黑色 分 段 的 首部 。 当 指 
针 tree 与 指针 B( 即 来 源 空间 的 尾部 ) 
重合 时 ， 表 示 空 闲 内 存 耗 尽 ， 需 要 进 
行 垃圾 回收 ， 此 时 整个 转 轮 中 最 多 只 
包含 黑白 两 种 颜色 的 对 象 。 回 收 器 首 
先 将 来 源 空 间 与 目标 空间 互 换 ， 然 后 
将 黑色 对 象 重 新 着 为 白色 ， 并 将 指针 
T 与 指针 Ba 互 换 。 接 下 来 ， 回 收回 将 
采用 类 似 半 区 复制 的 方式 进行 回收 : 
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图 10.1 转 轮回 收回 。 回 收 器 使 用 环 状 双向 链表 来 维护 对 
象 。 整 个 链表 被 划分 为 四 个 分 段 ， 每 个 分 段 都 是 
一 种 颜色 的 对 象 集合 。 每 种 颜色 的 对 象 都 可 以 从 
其 所 属 的 分 段 中 摘除 ， 并 重新 插入 到 其 他 分 段 中 。 
转 轮 回收 器 的 控制 指针 与 其 他 增 量 复制 回收 器 的 
相同 [Baker, 1978]: 当 指 针 scan 与 指针 T EAM, 
当 完成 某 一 灰色 对 象 的 扫描 后 ， 回 收 表示 扫描 过 程 结束 ， 而 当 指 针 free 与 指针 B 重合 


器 逆 时 针 移 动 指针 scan， 该 操作 相当 NP 
于 是 将 已 完成 扫描 的 对 象 插入 到 黑色 分 段 的 尾部 。 当 扫描 到 来 源 空 间 中 的 白色 对 象 时 ， 回 收 
器 将 其 从 白色 分 段 中 摘除 并 插入 灰色 分 段 。 当 指针 scan 与 指针 重合 时 ， 表 示 灰 色 分 段 为 
容 ， 即 回收 完成 。 

转 轮回 收 器 具有 诸多 优势 。 其 分 配 与 “复制 ”速度 相当 快 ， 并 发 转 轮回 收 器 可 以 通过 将 
对 象 插入 到 合适 分 段 的 方式 简单 地 分 配 任意 颜色 的 对 象 。 由 于 摘除 与 插入 操作 并 不 会 在 物理 
上 移动 对 象 ， 因 此 分 配 与 “复制 ”的 操作 可 以 在 常数 时 间 内 完成 ， 且 与 对 象 的 大 小 无 关 。 将 


HD BRB 119 


对 象 插入 指定 分 段 的 操作 简化 了 我 们 在 第 4 章 中 所 讨论 的 遍历 顺序 选择 问题 : 如 果 将 对 象 插 
入 到 灰色 分 段 的 尾部 ( 即 在 指针 7 之 前 )， 则 遍历 操作 就 会 遵从 广度 优先 的 顺序 ， 而 如 果 将 
灰色 对 象 插 入 到 灰色 分 段 的 首部 ( 即 指针 scan 的 位 置 )， 则 遍历 操作 会 遵从 深度 优先 的 顺序 ， 
且 无 需 额外 的 辅助 栈 。 不 论 使 用 哪 种 遍历 顺序 ， 转 轮回 收 器 的 双向 链表 结构 都 已 经 自然 地 提 
供 了 遍历 所 需 的 数据 结构 ( 即 栈 或 者 队列 )。 

如 果 将 转 轮回 收 算法 当 作 通 用 的 垃圾 回收 器 来 使 用 ， 则 其 缺点 之 一 在 于 每 个 对 象 都 需要 
引入 两 个 指针 以 实现 双向 链表 。 但 相对 于 复制 式 回 收 而 言 ， 转 轮回 收 算法 却 无 需 任 何 复制 保 
留 区 (因为 它 无 需 在 物理 上 实现 对 象 的 复制 )， 从 而 弥补 了 双向 链表 的 空间 开销 。 转 轮回 收 
算法 的 另 一 个 问题 在 于 如 何 容 纳 不 同 大 小 的 对 象 (参见 [Brent, 1989; White, 1990; Baker 等 ， 
1985]), 一 种 解决 方案 是 为 每 种 空间 大 小 使 用 不 同 的 转 轮 [Wilson and Johnstone，1993]。 但 
无 论 如 何 ， 这 些 不 足 之 处 对 于 大 对 象 的 管理 都 不 会 造成 太 大 的 问题 。 大 对 象 转 轮 回收 器 (如 
Jikes RVM 中 所 使 用 的 ) 通常 会 为 每 个 对 象 分 配 专属 的 页 (或 者 一 组 连续 的 页 )， 如 果 将 双向 
链表 指针 保存 在 该 页 中 ， 则 它们 可 以 复 用 页 中 的 碎片 空间 (这 些 碎片 是 由 于 将 对 象 占用 的 空 
间 向 上 圆 整 到 页 的 整数 倍 造成 的 )。 另 一 方面 ， 也 可 以 将 链表 指针 从 其 所 属 对 象 的 页 中 移出 
并 集中 保存 ， 其 优势 在 于 它 不 仅 有 助 于 降低 用 户 代 码 破坏 回收 器 元 数据 的 风险 ， 而 且 可 以 降 
低 高 速 缓存 不 命中 以 及 换 页 的 开销 。 


10.1.2 在 操作 系统 支持 下 的 对 象 移动 


如 果 操 作 系统 支持 ， 则 回收 器 在 “复制 ”或 者 “整理 ”对 象 时 甚至 有 可 能 避免 在 物理 上 
真正 地 移动 它们 。 要 达到 这 一 目的 ， 分 配器 首先 必须 为 每 个 大 对 象 分 配 专属 的 页 ， 当 需要 
“复制 ”或 者 “整理 ” 某 一 对 象 时 ， 回 收 器 可 以 对 其 所 在 页 进行 重 映射 来 达到 更 新 虚拟 内 存 
地 址 的 目的 ， 从 而 避免 逐 字 节 的 内 存 复制 [Withington，1991]。 基 于 操作 系统 的 支持 也 可 以 
实现 大 对 象 的 增 量 初始 化 ? ， 即 当 需 要 清空 某 一 大 对 象 的 内 存 时 ， 不 是 将 其 一 次 性 清 零 ， 而 
是 修改 其 所 在 页 的 内 存 保护 策略 ， 任 何尝 试 访 问 该 对 象 未 初始 化 部 分 的 操作 都 会 触发 页 保护 
陷阱 ， 此 时 可 以 通过 陷阱 处 理 函 数 解除 赋值 器 所 访问 地 址 的 页 保护 并 将 该 页 清 零 ， 也 可 参见 
11.1 节 对 清 零 操作 的 进一步 讨论 。 


10.1.3 不 包含 指针 的 对 象 


对 大 对 象 进行 分 区 管理 的 思想 也 可 以 用 于 具有 其 他 特征 的 对 象 。 如 果 某 一 对 象 内 部 不 包 
含 指针 ， 则 回收 器 无 需 对 其 进行 扫描 。 基 于 分 区 信息 ， 回 收 器 根据 对 象 的 地 址 便 可 以 简单 
地 判定 其 内 部 是 否 包 含 指针 。 如 果 对 象 的 标记 位 保存 在 额外 的 位 图 中 ， 则 回收 器 根本 无 需 
访问 对 象 本 身 。 如 果 能 将 较 大 的 位 图 与 字符 串 保存 在 独立 的 区 域 ， 并 使 用 特殊 的 扫描 器 对 
其 进行 管理 ， 即 使 这 些 区 域 的 空间 不 大 ， 程 序 的 性 能 也 可 以 得 到 显著 提升 。 例 如 ，Ungar 和 
Jackson[1988] 仅 凭 借 一 个 330KB 的 独立 空间 便 将 回收 停顿 时 间 降 低 了 3/4， 而 这 一 空间 开 
销 相 对 于 现代 标准 几乎 微不足道 。 


10.2 基于 对 象 拓扑 结构 的 回收 器 


回收 器 还 可 以 按照 对 象 图 中 由 指针 构成 的 拓扑 结构 来 组 织 堆 中 对 象 的 排列 ， 基 于 这 一 思 
想 可 以 设计 出 多 种 新 的 垃圾 回收 算法 ,我 们 将 在 本 节 对 其 进行 讨论 。 


日 参见 http:/www.memorymanagement.org/。 
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10.2.1 成 熟 对 象 空间 的 回收 


分 代 垃 圾 回收 器 的 设计 目的 之 一 是 降低 回收 停顿 时 间 。 回 收 年 轻 分 代 所 需 的 停顿 时 间 可 
以 通过 控制 年 轻 代 整体 大 小 的 方式 进行 调整 ， 但 回收 最 老 分 代 所 需 的 工作 量 则 取决 于 堆 中 存 
活 对 象 的 整体 大 小 。 正 如 我 们 在 第 9 章 所 看 到 的 ，Beltway. X. 对 分 代 回 收费 [Blackburn 等 ， 
2002] 尝试 将 每 次 回收 的 工作 量 限制 为 回收 带 中 国定 大 小 的 回收 增 量 ， 但 这 又 引入 了 另 一 
个 问题 ， 即 如 果 环 状 垃圾 太 大 以 至 于 一 个 回收 增 量 无 法 将 其 完全 容纳 ， 其 将 无 法 得 到 回收 。 
Bishop[1977] 和 Beltway. X. X.100 分 别 引 入 了 一 个 大 小 不 受 限制 的 区 域 /回收 增 量 来 确保 回 
收 器 的 完整 性 ， 但 这 却 违背 了 每 次 仅 回 收 固定 大 小 的 内 存 空 间 这 一 设计 初衷。 

在 基于 年 龄 的 划分 策略 之 外 ，Hudson 和 Moss[1992] 另辟蹊径 ， 提 出 了 成 熟 对 象 空间 
( mature object space, MOS) 管理 方案 。 该 方案 依然 将 空间 划分 为 多 个 固定 大 小 的 区 域 ， 每 
次 回收 只 对 一 个 区 域 进行 处 理 ， 并 将 其 中 的 存活 对 象 复制 到 其 他 区 域 。Hudson 和 Moss 将 每 
个 区 域 称 为 车 厢 〈car)， 然 后 使 用 多 个 先进 先 出 链表 对 车 厢 进 行 组 织 ， 并 称 之 为 火车 (train )， 
因此 该 算法 又 俗称 为 火车 回收 器 。 对 于 每 节 正 在 处 理 的 车 厢 ， 回 收 器 会 按照 一 定 的 规则 将 其 
中 每 个 存活 对 象 复制 到 特定 的 目标 车 厢 中 。 该 策略 可 以 确保 环 状 垃圾 最 终 都 会 被 复制 到 一 列 
单独 的 火车 中 ， 而 该 列 火 车 可 以 被 当 作 垃 圾 进行 集体 回收 。 算 法 的 处 理 过 程 如 下 : 

1 ) 选择 编号 最 小 的 火车 t, 并 取 其 中 编号 最 小 的 车 厢 c 作为 来 源 车 厢 。 

2) 如 果 没 有 任何 赋值 器 根 引用 火车 t 中 的 对 象 ， 且 t 的 记忆 和 集 为 空 ， 则 该 列 火 车 中 的 所 
有 对 和 象 均 不 可 达 ， 回 收 器 可 以 将 整 列 火 车 回收 ， 回 收 结束 。 否 则 继续 进行 步 又 3 )。 

3 ) 将 来 源 车 厢 c< 中 所 有 被 根 集合 引用 的 对 象 复制 到 火车 1 的 目标 车 时 cc' 中 ， 其 中 + 的 
编号 比 t 大 ， 且 rt 可 能 是 一 列 新 创建 的 火车 。 

4) 递归 地 将 车 厢 c 中 从 目标 车 厢 c' 可 达 的 对 象 复制 到 c' 中 ， 如 果 EW, WEKE 
中 创建 一 节 新 的 车 厢 ， 并 将 其 作为 目标 车 厢 。 

5 ) 将 年 轻 代 存活 对 象 提升 到 它们 的 引用 来 源 所 在 的 火车 。 

6) 扫描 来 源 车 厢 c 的 记忆 集 ， 如 果 其 中 的 某 一 对 象 o 从 其 他 火车 可 达 ， 则 将 对 象 o 复 
制 到 该 列 火车 。 

7 ) 将 来 源 车 厢 c 中 的 剩余 可 达 对 象 复制 到 其 所 在 火车 上 的 最 后 一 节 车 厢 中 ， 如 果 该 车 
厢 已 满 ， 则 增加 新 的 车 厢 。 

算法 的 第 2 步 中 ， 如 果 一 列 火 车 只 包含 垃圾 ， 即 使 其 中 仍 包含 跨 车 厢 的 指针 结构 (例如 
环 状 垃圾 )， 回 收 器 也 会 将 其 整体 回收 。 由 于 火车 的 记忆 集 为 室 ， 所 以 该 列 火 车 中 的 任何 对 
象 都 不 会 被 其 他 火车 引用 。 第 3 步 和 第 4 步 会 将 来 源 车 厢 中 所 有 直接 从 根 集合 可 达 或 者 经 由 
本 节 车 厢 内 部 的 指针 链 从 根 集合 可 达 的 对 象 移动 到 其 他 火车 中 ， 这 些 对 象 必然 都 是 存活 的 ， 
因此 这 两 步 会 将 它们 从 当前 火车 中 其 他 可 能 是 垃圾 的 对 象 中 分 离 出 来 。 如 在 图 10.2 中 ， 回 
收 器 将 位 于 火车 Tl EM C1 的 对 象 A 和 B 复制 到 新 创建 的 火车 T3 的 第 一 节 车 厢 中 。 算 法 
最 后 两 步 的 目的 在 于 将 链 式 垃圾 结构 与 其 他 存活 对 象 分 离 。 其 中 ,第 6 步 将 来 源 车 厢 中 从 其 
他 列车 可 达 的 对 象 移动 到 对 应 的 火车 中 ， 如 将 对 象 P 移动 到 火车 T2 的 C2 车 厢 中 。 而 第 7 
步 则 是 将 来 源 车 厢 中 其 他 潜在 的 存活 对 象 (如 对 象 X) 移动 到 本 列 火车 的 未 尾 。 算 法 的 各 个 
步骤 以 这 种 方式 进行 安排 是 十 分 必要 的 ， 因 为 某 一 对 象 可 能 会 从 多 列 火 车 可 达 。 第 7 步 完 成 
F, EM ce 中 的 剩余 对 象 必 然 无 法 从 任何 外 部 车 厢 可 达 ， 因 而 回收 器 可 以 像 半 区 复制 策略 那 
样 将 整个 来 源 车 厢 回 收 。 
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b) 完成 对 T1C1 的 回收 之 后 堆 的 状态 。 由 于 对 象 X 被 对 象 Y 引 用 ， 所 以 回收 器 将 其 移动 到 对 
象 了 所 在 的 车 厢 。 对 象 A 和 B 被 移动 到 一 列 新 的 火车 T3 中 。 在 下 一 轮回 收 过 程 中 ， 火 车 T2 
将 被 隔离 并 整体 回收 。 图 中 带 数 字 的 标签 表示 对 象 是 在 算法 的 哪 一 步 被 复制 到 目标 车 厢 中 的 

图 10.2 ”火车 回收 器 
见 Jones[1996] 一 书 ， 已 得 到 重印 授权 


火车 算法 存在 诸多 优势 。 该 算法 的 回收 过 程 是 增 量 式 的 ， 且 每 个 回收 周期 所 需 复制 的 数 
据 量 不 会 超过 一 节 车 厢 。 另 外 ， 该 算法 尝试 将 存活 对 象 复制 到 其 引用 来 源 所 在 的 车 厢 。 由 于 
存活 对 象 的 复制 总 是 从 编号 较 小 的 火车 /车厢 到 编号 较 大 的 ， 所 以 记忆 集 只 需要 记录 从 编号 较 
大 的 火车 /车 厢 指 向 编号 较 低 的 火车 /车 厢 的 指针 。 如 果 在 成 熟 对 象 空间 之 外 引入 额外 的 年 轻 
分 代 ， 且 在 每 个 回收 周期 都 对 其 进行 回收 ， 则 记忆 集 也 无 需 记录 任何 来 自 年 轻 分 代 的 指针 。 

不 幸 的 是 ， 火 车 回收 器 在 对 赋值 器 一 般 行 为 的 适应 方面 存在 一 些 问题 5 ， 这 表现 在 以 下 
几 个 方面 。 将 环 状 垃圾 隔离 在 单独 的 列车 中 可 能 需要 经 历 多 个 回收 周期 ， 且 所 需 的 回收 周期 
数 与 环 状 垃圾 所 分 布 车 厢 总 数 的 平方 成 正比 。 同 时 ， 火 车 算法 在 某 些 情况 下 可 能 会 无 法 正常 
工作 。 以 图 10.3a 所 示 的 情况 为 例 ， 假 设 单独 一 节 车 厢 的 空间 不 足以 同时 容纳 A 和 了 B 两 个 


日 火车 算法 在 Java 5 之 后 的 Sun Microsystems 的 JDK 中 被 废弃 ， 取 而 代 之 的 是 另 一 个 停顿 时 间 更 短 的 并 发 回 
收回。 
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对 象 (或 者 指针 结构 )， 则 当 对 第 一 节 车 厢 进 行 回 收 时 ， 对 象 A 会 被 移动 到 同一 列 火车 末尾 
新 创建 的 那 节 车 厢 中 。 假 设 在 本 例 中 各 个 指针 都 未 被 修改 ， 则 下 一 轮回 收 将 会 发 现 首 节 车 厢 
存在 一 个 外 部 引用 ， 因 而 对 象 B 会 被 移动 到 编号 更 高 的 火车 中 。 类 似 地 ， 第 三 轮回 收 将 会 
发 现 对 象 A 引用 了 对 和 象 B， 因 而 会 将 对 象 A 移动 到 对 象 B 所 在 的 火车 中 。 此 时 ， 编 号 最 低 
的 一 列 火 车 将 不 再 包含 任何 存活 对 象 ， 因 而 可 以 整体 回收 。 在 这 种 情况 下 ， 火 车 回收 器 可 
以 正常 工作 ， 但 是 ， 如 果 每 次 回收 完成 后 赋值 器 都 会 将 外 部 引用 切换 到 第 二 节 车 厢 中 的 对 
A (AIA 10.3b 所 示 )， 则 会 出 现 问题 : 首 节 车 厢 永 远 不 会 有 来 自 本 列 火 车 之 外 的 引用 ， 因 
而 无 论 在 哪 次 回收 中 ， 火 车 回收 右 都 会 在 编号 最 小 的 一 列 火车 末尾 创建 一 节 新 的 车 厢 ， 并 将 
首 节 车 有 厢 中 的 存活 对 象 移动 到 其 中 ， 此 时 回收 器 将 无 法 对 其 他 火车 进行 处 理 。Seligmann 和 
Grarup[1995] 将 这 种 情况 称 为 “徒劳 无 功 ”的 回收 ， 他 们 的 解决 方案 是 进一步 为 每 节 车 厢 记 
录 来 自 同一 列 火 车 中 更 靠 后 车 厢 的 指针 ， 并 且 在 出 现 这 一 情况 时 据 此 将 对 象 移动 到 其 他 火车 
上 ， 从 而 最 终 实 现 此 列 火车 的 回收 。 


"L 
a) 回收 首 节 车 厢 之 前 b) 回收 下 一 节 车 厢 之 前 
图 10.3 “徒劳 无 功 ” 的 回收 。 第 一 次 回收 将 会 把 对 象 A 移动 到 一 节 新 创建 的 车 厢 中 ， 此 后 赋值 器 却 将 


外 部 引用 的 目标 从 对 象 B 切换 到 对 象 A。 此 时 火车 将 回 到 第 一 次 回收 之 前 的 状态 ， 因 而 回收 工 
作 无 法 继续 下 去 


火车 回收 算法 仅 限制 了 每 个 回收 周期 所 需 复 制 的 数据 量 ,， 但 它 却 无 法 进一步 限制 其 他 一 
些 回收 相关 的 工作 ， 例 如 记忆 集 的 扫描 以 及 引用 的 更 新 。 如 果 某 节 车 厢 存 在 富 引 用 对 象 ( 即 
该 对 象 被 引用 的 次 数 较 多 )， 则 其 记忆 集 通常 较 大 ， 如 果 将 其 移动 到 其 他 车 厢 ， 回 收 需 将 不 
得 不 对 大 量 对 象 的 指针 域 进行 更 新 。Hudson 和 Moss 建议 将 富 引用 对 象 移动 到 最 新 一 列 火 
车 末尾 专门 为 其 创建 的 车 厢 中 ， 后 续 回 收 过 程 中 回收 器 便 可 对 富 引 用 车 厢 仅 做 逻辑 上 而 非 物 
理 上 的 移动 ， 进 而 避免 大 量 的 指针 更 新 操作 。 不 幸 的 是 ， 这 一 策略 却 无 法 保证 回收 器 能 够 将 
环 状 垃圾 隔离 到 单独 一 列 火 车 中 。 即 使 允许 在 每 节 富 引 用 车 厢 中 容纳 多 个 富 引 用 对 象 ， 回 收 
器 也 有 必要 将 其 中 的 对 象 彼此 分 离 ， 除 非 其 中 的 所 有 对 象 属于 同一 个 指针 结构 。Seligmann 
和 Grarup[1995] 以 及 Printezis 和 Garthwaite[2002] 都 发 现 富 引 用 对 象 在 实践 中 十 分 普遍 ， 后 
者 的 解决 方案 是 允许 记忆 集 增 大 到 某 一 闽 值 ( 即 4096 个 指针 )， 并 且 在 外 部 指针 数量 大 于 
该 值 时 使 用 哈 希 函数 将 其 中 的 所 有 指针 重新 映射 到 相同 大 小 的 集合 中 ， 从 而 实现 记忆 集 的 
扩大 。Seligmann 和 Grarup 对 可 以 回收 到 的 垃圾 进行 动态 评估 ， 并 尝试 在 此 基础 上 降低 回 
收 频 率 (如 果 在 评估 时 发 现 可 以 回收 到 的 垃圾 较 少 ， 则 尝试 降低 回收 频率 )， 但 Printezis 和 
Garthwaite 却 发 现 ， 许 多 程序 中 通常 都 会 存在 少量 包含 长 寿 对 象 且 长 度 很 长 的 火车 ， 这 会 导 
致 Seligmann 和 Grarup 的 策略 失效 。 


10.22 ”基于 对 和 象 相关 性 的 回收 


记忆 集 的 管理 方式 将 显著 影响 火车 算法 在 时 间 和 空间 方面 的 开销 。 对 于 基于 分 区 策略 的 
回收 器 而 言 ， 如 果 可 以 减少 甚至 彻底 消除 跨 分 区 指针 ， 回 收 器 的 性 能 将 会 得 到 提升 。 在 前 面 
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的 章节 中 我 们 介绍 过 ，Guyer 和 McKinley [2004] 使 用 静态 分 析 的 方法 直接 将 新 创建 的 对 象 
预 分 配 到 可 能 与 其 相关 的 对 象 所 在 的 分 代 ，Zee 和 Rinard [2002] 在 分 代 回 收 器 中 使 用 静态 分 
析 的 方法 去 除 新 创建 对 象 初始 化 过 程 中 的 写 屏障 。Hirzel 等 [2003] 对 基于 对 象 相关 性 的 分 配 
与 回收 策略 做 了 进一步 研究 ， 他 们 发 现 ，Java 对 象 的 生命 周期 与 它们 之 间 的 相关 性 有 着 十 分 
密切 的 联系 : 仅 被 栈 模 引 用 的 对 象 寿命 通常 较 短 ， 而 从 全 局 变量 可 达 的 对 象 则 极 有 可 能 存活 
到 程序 运行 结束 时 (他 们 同时 指出 ， 这 一 特性 同时 也 在 很 大 程度 上 取决 于 对 “长 寿 ” 和 “ 短 
命 ” 的 精确 定义 )。 男 外 ， 以 指针 链 的 形式 相互 关联 的 对 象 通常 会 在 同一 时 间 死 亡 。 

Hirzel 等 [2003] 基于 这 一 观察 结果 开发 出 一 种 新 的 回收 模型 ， 即 基于 相关 性 的 (垃圾 ) 
回收 (connectivity-based ( garbage) collection，CBGC)， 该 模型 包含 四 个 基本 组 件 。 保 守 式 
指针 分 析 器 用 于 将 对 象 图 划分 为 稳定 的 分 区 : 如 果 对 象 A 可 能 指向 对 象 B， 则 它们 将 位 于 
同一 个 分 区 ， 或 者 由 分 区 构成 的 有 向 无 环 图 (directed acyclic graph, DAG) 中 会 存在 一 条 从 
A 所 在 分 区 指向 B 所 在 分 区 的 边 。 尽 管 分 区 的 数量 可 能 会 增加 (例如 有 新 的 类 系 加 载 到 程 
序 中 ), 但 现 有 分 区 永远 不 会 分 裂 。 因 此 ， 一 旦 回收 器 完成 对 某 一 分 区 所 有 来 源 分 区 的 回收 ， 
便 可 进一步 对 该 分 区 进行 回收 。 回 收费 按照 拓扑 顺序 来 选择 待 回收 分 区 ， 这 存在 两 个 好 处 : 
一 方面 ， 系 统 不 再 需要 任何 形式 的 写 屏 障 或 者 记忆 集 ; 另 一 方面 ， 在 使 用 拓扑 顺序 进行 遍历 
时 ,一旦 回收 器 完成 对 某 一 分 区 中 对 象 的 追踪 ， 则 该 分 区 内 部 或 者 其 来 源 分 区 中 所 有 的 白色 
对 象 将 都 变 成 垃圾 ， 因 此 该 策略 具有 较 高 的 回收 及 时 性 。 另 外 ， 该 算法 也 可 以 忽略 对 富 引 用 
子 分 区 的 处 理 。 

Hirzel 等 人 发 现 ， 对 于 基于 对 象 相关 性 的 垃圾 回收 器 ， 其 性 能 在 很 大 程度 上 取决 于 保守 
式 指 针 分 析 器 的 分 区 质量 、 对 各 分 区 存活 对 象 的 评估 结果 ， 以 及 待 回收 分 区 的 选择 方式 。 它 
们 使 用 模拟 程序 进行 实验 ， 其 中 回收 器 基于 对 象 及 其 域 的 类 型 进行 分 区 ， 基 于 分 区 中 对 象 
从 全 局 变量 或 者 栈 的 可 达 性 来 估算 分 区 中 存活 对 象 的 量 (并 使 用 一 个 基于 分 区 年 龄 的 衰减 函 
数 来 调整 估算 的 结果 )， 使 用 贪 禁 算 法 来 选择 待 回收 分 区 ， 但 不 幸 的 是 ， 实 验 结果 令 人 失望 ， 
尽管 其 标记 /构造 率 在 某 些 情 况 下 优 于 半 区 复制 回收 器 ， 但 却 比 Appel 式 分 代 回 收 器 要 差 得 
多 。 另 外 ， 该 算法 的 最 差 停顿 时 间 通 常 较 小 。 与 其 他 从 分 区 策略 中 获取 较 高 收益 的 回收 器 相 
比 ， 该 回收 器 显然 在 性 能 上 与 它们 有 较 大 差距 ， 这 一 差距 可 能 需要 通过 寻求 更 好 的 配置 方式 
才能 弥补 。 基 于 对 象 分 配 位 置 ( 即 进 行 对 象 分 配 的 代码 地 址 一 一 译 者 注 ) 的 动态 分 区 策略 也 
可 能 提升 回收 器 性 能 ， 但 这 又 需要 重新 引入 写 屏 障 来 实现 分 区 的 合并 。 


10.2.3 线程 本 地 回收 


降低 垃圾 回收 停顿 时 间 的 一 种 方式 是 将 回收 器 线程 与 赋值 器 线程 并 发 执行 。 该 策略 的 一 
个 变种 是 增 量 式 地 执行 回收 工作 ， 即 回收 工作 在 赋值 器 的 执行 间隙 穿插 进行 。 这 两 种 方案 
中 ， 赋 值 器 和 回收 器 之 间 需 要 进行 大 量 同 步 操作 ， 因 而 增加 了 回收 器 的 实现 复杂 度 (我 们 将 
在 后 面 的 章节 中 描述 增 量 回收 器 与 并 发 回收 器 )。 如 果 我 们 可 以 确保 某 个 对 象 集合 只 会 被 单 
个 赋值 器 线程 所 访问 ， 同 时 这 些 对 象 都 存在 于 线程 本 地 堆 中 ， 则 对 这 些 对 象 的 操作 可 以 免 去 
同步 操作 的 开销 ， 从 而 可 以 将 万 物 静 止 式 的 回收 限制 于 单个 线程 之 内 。 本 节 我 们 将 对 不 同 的 
线程 本 地 回收 策略 进行 介绍 。 需 要 注意 的 是 ， 线 程 本 地 回收 方法 无 法 处 理 可 能 共享 的 对 象 ， 
对 它们 进行 处 理 时 依然 需要 挂 起 所 有 的 赋值 器 线程 ， 或 者 使 用 更 加 复杂 的 并 发 回收 / 增 量 回 
收 技术 。 

线程 本 地 回收 的 关键 在 于 如 何 将 仅 可 能 被 单个 线程 访问 的 对 象 与 潜在 的 共享 对 象 隔离 。 
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线程 本 地 回收 算法 通常 会 将 堆 划 分 为 一 个 共享 空间 以 及 一 组 线程 本 地 堆 ， 同 时 算法 会 对 指针 
方向 有 着 很 严格 的 要 求 : 线程 本 地 对 象 中 的 指针 仅 应 当 指向 同一 个 线程 本 地 堆 中 的 对 象 或 者 
共享 对 象 ， 共 享 对 象 中 不 应 当 包 含 指向 线程 本 地 对 象 的 指针 ， 同 时 线程 本 地 对 象 也 不 应 当 包 
含 指 向 其 他 线程 的 本 地 对 象 的 指针 。 可 以 使 用 静态 指针 分 析 方 法 实现 对 象 的 静态 分 区 ， 也 可 

以 使 用 动态 分 区 ， 但 这 就 需要 赋值 器 在 运行 时 检测 出 违背 上 述 指针 方向 要 求 的 操作 。 注 意 ， 
线程 本 地 堆 中 对 象 的 组 织 可 以 使 用 多 种 策略 (如 扁平 式 管理 策略 或 者 基于 分 代 的 管理 策略 )。 
另外 ， 还 可 以 基于 对 象 自身 来 表示 其 是 否 属于 共享 对 象 (例如 让 对 象 头 部 中 的 一 个 标记 位 作 
为 标识 一 一 译 者 注 )。 

Steensgaard [2000] 使 用 快速 但 保守 的 指针 分 析 方 法 来 判断 哪些 Java 对 象 可 能 会 从 全 局 
变量 或 多 个 线程 可 达 ，Ruf[2000] 也 使 用 过 类 似 的 方法 ， 他 使 用 流 不 敏感 ( flow-insensitive) 
但 上 下 文敏 感 (context-sensitive) 的 逃逸 分 析 将 创建 对 象 的 函数 特 化 (specialise)， 并 据 此 决 
定 是 将 对 象 分 配 在 线程 本 地 堆 还 是 共享 堆 。 每 个 堆 都 包含 一 个 年 轻 分 代 以 及 一 个 年 老 分 代 。 
Steensgaard 将 所 有 静态 域 都 作为 线程 本 地 堆 的 根 ， 且 每 次 回收 都 需要 一 个 全 局 的 线程 汇聚 
(rendezvous)， 因 而 从 严格 意义 上 讲 ， 该 策略 只 能 算是 主体 线程 本 地 (mostly thread-local) 回 
收 器 。 回 收 开 始 时 ， 回 收 器 首先 需要 使 用 一 个 线程 来 完成 所 有 从 全 局 变量 以 及 线程 栈 直 接 
可 达 的 对 象 的 复制 ， 然 后 再 对 共享 堆 进行 Cheney 扫描 ， 最 后 再 恢复 各 个 线程 ， 并 由 每 个 线 
程 完成 其 本 地 堆 的 回收 。 当 多 个 线程 同时 对 共享 堆 中 尚未 复制 的 对 象 进行 处 理 时 可 能 发 生 冲 
突 ， 在 这 种 情况 下 就 必须 引入 全 局 的 锁 。 

要 实现 线程 本 地 对 象 以 及 共享 对 象 的 静态 分 区 ， 就 需要 对 整个 程序 进行 分 析 ， 这 对 于 允 
许 动态 加 载 类 的 语言 来 说 将 会 成 为 问题 : 如 果 某 个 类 在 静态 分 析 完 成 之 后 才 加 载 到 程序 中 ， 
则 程序 很 可 能 会 调用 该 类 中 未 经 静态 分 析 的 多 态 方法 来 创建 对 象 ， 并 将 其 赋值 给 某 一 全 局 可 
达 的 域 ， 从 而 造成 引用 “泄漏 ”。Jones 和 King 解决 了 这 一 问题 并 设计 出 一 种 真正 的 线程 本 地 
回收 器 [King，2004 ; Jones and King，2005]， 他 们 基于 Steensgaard 的 方法 研究 出 了 组 合式 逃 
RAPA, FF Java 的 动态 类 系 加 载 ， 且 可 以 确保 在 静态 分 析 完 成 之 后 的 类 系 加 载 操作 依 
然 安全 。 对 于 在 Solaris 系统 中 运行 在 多 处 理 器 上 的 ExactVM Java 虚拟 机 ， 该 方案 会 在 长 期 执 
行 的 Java 程序 中 启动 一 个 后 台 线 程 执行 分 析 ， 且 速度 相当 快 。 他 们 为 每 个 线程 开辟 了 两 块 线 
程 本 地 堆 ， 一 个 用 于 分 配 确定 只 会 被 当前 线程 访问 的 对 象 (不 管 未 来 是 否 会 有 新 的 类 系 加 载 
到 程序 中 )， 另 一 个 用 于 分 配乐 观 本 地 
对 象 (optimistically-local objects)， 此 类 


对 象 在 执行 静态 分 析 时 只 被 一 个 线程 访 

Fr Ea Aa OPT I 

为 共享 对 象 。 纯 粹 的 线程 本 地 对 象 通常 

较 少 ， 它 们 通常 不 会 逃逸 出 创建 它们 的 

方法 ,但 乐观 本 地 对 象 则 相当 普遍 。 该 

方案 对 Steensgaard 的 指针 方向 要 求 做 

了 适当 的 拓展 : 纯 线 程 本 地 对 象 可 以 

引用 乐观 本 地 对 象 ， 但 反之 则 不 允许 ， EE ae 

同时 乐观 本 地 对 象 可 以 引用 全 局 对 象 。 图 10.4 ”线程 本 地 堆 的 组 织 方式 。 图 中 展示 了 纯 线程 本 地 

10.4 展示 了 该 方案 中 允许 出 现 的 指针 HE (L)、 乐 观 本 地 堆 (OL) 以 及 共享 堆 (G) 之 间 
方向 。Jones 和 King 的 方案 允许 对 每 个 所 有 合法 的 指针 方向 [Jones and King，2005] 
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线程 进行 独立 回收 ， 从 而 无 需 引 入 全 局 的 线程 汇聚 。 如 果 在 静态 分 析 完 成 之 后 没有 新 的 类 系 
引入 ， 则 对 纯 线 程 本 地 堆 以 及 乐观 本 地 堆 可 以 同时 进行 回收 。 一 旦 有 新 类 系 被 动态 引信， 后 
台 分 析 线 程 不 但 要 对 其 方法 进行 特 化 ， 而 且 还 要 判断 该 类 是 否 会 影响 现 有 的 已 经 完成 分 析 的 
类 系 ， 同 时 还 要 确定 该 类 的 方法 是 否 会 导致 原 有 的 乐观 本 地 分 配 成 为 多 线程 共享 分 配 。 如 果 
出 现 这 样 的 情况 (实际 应 用 中 这 些 “ 不 合格 ”的 方法 通常 极 少 出 现 )， 则 所 有 可 能 调用 该 方法 
的 线程 都 必须 将 其 乐观 本 地 堆 标 记 为 共享 ， 同 时 不 再 允许 对 其 进行 线程 本 地 回收 (它们 必须 和 
共享 堆 一 起 进行 回收 )。 

Steensgaard 使 用 静态 分 析 的 方法 来 划分 对 象 ， 但 这 个 方法 需要 引入 全 局 线程 汇聚 ; 
Jones 和 King 的 方案 也 使 用 静态 逃逸 分 析 ， 但 其 回收 过 程 却 是 纯 线 程 本 地 的 ， 该 方案 同时 
也 会 对 动态 加 载 的 类 系 进 行 检查 ， 并 会 针对 可 能 导致 线程 本 地 对 象 变 成 共享 对 象 的 方法 进 
行 处 理 。 除 此 之 外 ， 也 可 以 在 运行 时 动态 检测 某 一 对 象 是 否 会 逃逸 出 创建 该 对 象 的 线程 。 
Domani 等 [2002] 使 用 线程 本 地 分 配 缓冲 区 来 创建 对 象 ， 但 同时 使 用 写 屏 障 来 精确 捕获 对 象 
的 逃逸 行为 。 由 于 该 方案 不 会 将 共享 对 象 与 线程 本 地 对 象 分 配 在 不 同 的 空间 ， 所 以 回收 器 需 
要 一 个 独立 的 位 图 来 记录 对 象 的 状态 。 当 某 一 线程 创建 指向 由 其 他 线程 所 创建 对 象 的 引用 
之 时 ， 写 屏障 不 仅 要 设置 目标 对 象 在 位 图 中 对 应 的 标记 位 ， 还 要 将 其 递归 闭 包 中 的 所 有 对 
象 都 设置 为 共享 。 在 Domani 等 人 所 设计 的 并 行 标记 -清扫 回收 器 中 ， 各 线程 可 以 独立 进行 
回收 ， 只 有 当 系 统 无 法 完成 大 对 象 的 分 配 ， 或 者 需要 分 配 新 的 缓冲 区 时 ， 才 需要 挂 起 所 有 线 
程 。 他 们 同样 也 会 将 已 知 的 、 通 常会 全 局 可 达 的 对 象 (如 线程 对 象 或 者 类 对 象 ， 或 者 由 离线 
分 析 器 判定 为 全 局 的 对 象 ) 分 配 在 单独 的 共享 区 域 。 回 收 器 应 当 确 保 在 线程 本 地 回收 的 执行 
过 程 中 不 会 发 起 全 局 回收 ， 这 就 需要 在 两 者 之 间 引 入 适当 的 同步 机 制 ， 我 们 将 在 后 续 章 节 中 
描述 其 中 必要 的 握手 过 程 。 

如 果 所 有 对 象 都 是 不 可 修改 的 (immutable)， 则 线程 本 地 回收 的 实现 将 更 加 简单 。 
Erlang[Armstrong 等 ，1996] 是 一 种 严格 的 动态 类 型 的 函数 式 编程 语言 ， 基 于 Erlang 的 应 用 
程序 通常 会 使 用 大 量 轻 量 级 进程 (extremely light-weight processes) (此 处 的 “进程 ”与 操作 
系统 的 进程 无 任何 关联 ， 此 处 的 各 “进程 ”会 共享 包括 地 址 空间 在 内 的 大 量 资源 一 一 译 者 
注 )， 且 它们 彼此 之 间 通 过 消息 传递 来 进行 异步 通信 。 最 初 的 Erlang/OTP 运行 时 系统 是 以 轻 
量 级 进程 为 核心 的 (process-centric)， 即 每 个 轻 量 级 进程 拥有 其 本 地 内 存 区域 。 由 于 Erlang 
不 允许 破坏 性 的 赋值 操作 ， 因 而 消息 传递 必须 使 用 复制 语义 ， 因 此 各 线程 可 以 独立 地 对 其 本 
地 堆 进 行 回收 。 这 一 设计 方案 的 开销 在 于 其 消息 传递 操作 是 O(n) 时 间 复 杂 度 的 (其 中 是 
消息 的 大 小 )， 且 消息 数据 会 在 多 个 轻 量 级 进程 之 间 出 现 宛 余 。 

为 减少 消息 传递 过 程 中 的 复制 开销 ，Sagonas 和 Wilhelmsson 在 上 述 架 构 中 引入 了 两 个 
共享 区 域 ， 一 个 用 于 保存 消息 ， 另 一 个 用 于 保存 二 进 制 数据 [Johansson 等 ，2002 ; Sagonas 
and Wilhelmsson，2004 ; Wilhelmsson, 2005 ; Sagonas and Wilhelmsson, 2006]. 他 们 对 线程 
本 地 空间 以 及 共享 消息 空间 之 间 合 法 的 指针 方向 做 了 限制 : 共享 消息 空间 中 不 会 包含 任何 环 
状 引用 数据 ， 而 共享 二 进 制 数据 空间 则 不 会 包含 任何 引用 。 它 们 使 用 一 个 静态 消息 分 析 器 来 
引导 分 配 过 程 : 如 果 分 析 器 推断 待 分配 数 据 很 可 能 会 是 消息 的 一 部 分 ， 则 将 其 分 配 到 共享 堆 
中 ， 否 则 便 将 其 分 配 到 线程 本 地 堆 中 。 所 有 的 消息 参数 都 会 被 封装 到 一 个 按 需 复制 ( copy-on- 
demand) 的 操作 对 象 中 ， 该 对 象 会 检测 各 消息 参数 是 否 已 经 存在 于 共享 堆 中 ， 并 且 仅 在 不 存 
在 时 才 进 行 复制 (编译 器 通常 会 将 这 一 检测 过 程 优化 掉 )。 基 于 Erlang 语言 的 复制 式 消息 传递 
语义 ， 分 析 器 既 可 以 高 估 对 象 共 享 情 况 ， 也 可 以 低估 。 线 程 本 地 堆 使 用 分 代 式 的 、 停 止 - 复 
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制式 Cheney 回收 器 进行 管理 ， 并 使 用 分 代 式 栈 扫 描 [Cheng 等 ，1998]。 由 于 共享 二 进 制 对 象 
不 会 形成 环 ， 所 以 可 以 使 用 引用 计数 对 其 进行 管理 。 每 个 轻 量 级 进程 需要 维护 一 个 簿 记 表 8 
(remembered list) 来 记录 其 所 引用 的 二 进 制 对 象 ， 这 样 才能 确保 在 轻 量 级 进程 死亡 时 其 所 引 
用 的 二 进 制 对 象 都 能 正确 地 减少 引用 计数 。 共 享 消息 空间 通过 增 量 标记 一 清扫 回收 器 进行 管 
理 ， 其 回收 需要 使 用 一 定 的 全 局 同步 操作 。 我 们 将 在 第 16 章 讨 论 增 量 标记 一 清扫 回收 。 

线程 本 地 /共享 区 域 (thread-local/shared region) 这 一 内 存 架 构 最 早 由 Doligez 和 
Leroy[1993] 提出 。 在 他 们 的 方案 中 ， 本 地 /共享 区 域 同时 也 在 回收 器 中 扮演 着 年 轻 /年 老 分 
代 的 角色 ， 该 方案 是 针对 Concurrent Caml Light (一 种 支持 并 发 原 语 的 ML 实现 ) 设计 的 。 
与 Erlang 不 同 , ML 语言 中 存在 可 修改 对 象 ， 因 此 为 确保 每 个 线程 可 以 独立 回收 其 年 轻 分 代 ， 
必须 将 可 修改 对 象 保存 在 共享 的 年 老 分 代 中 。 如 果 更 新 某 一 可 修改 对 象 的 操作 导致 其 引用 了 
线程 本 地 年 轻 分 代 中 的 对 象 ， 则 写 屏 障 必须 将 目标 对 象 及 其 递归 闭 包 中 所 有 的 年 轻 代 对 象 提 
升 到 年 老 代 。 与 Erlang 语言 类 似 ， 该 方案 中 年 轻 代 对 象 都 不 可 修改 ， 因 而 允许 其 存在 多 个 
副本 。 在 将 年 轻 代 对 象 复 制 到 年 老 代 的 过 程 中 ， 回 收回 〈 此 时 回收 器 的 角色 是 由 写 屏障 扮演 
的 ) 会 在 对 象 的 原始 副本 中 记录 转发 地 址 〈 即 其 复制 的 共享 副本 的 地 址 )， 该 地 址 会 在 后 续 的 
线程 本 地 年 轻 代 对 象 回收 中 用 到 。 需 要 注意 的 是 ， 由 于 对 象 在 年 轻 代 中 的 副本 仍 在 使 用 中 ， 
所 以 在 记录 转发 地 址 时 不 能 破坏 性 地 覆盖 对 象 数据 ， 而 必须 使 用 对 象 头 部 中 一 个 保留 的 域 。 
共享 堆 通过 并 发 标记 -清扫 回收 器 进行 管理 ， 因 而 年 老 代 对 象 可 以 省 略 这 一 保留 域 。 尽 管 这 
一 额外 的 域 给 年 轻 分 代 带 来 了 一 定 的 空间 开销 ， 但 这 通常 在 可 接受 范围 内 ， 因 为 年 轻 代 对 象 
在 整个 堆 中 所 占 的 比例 通常 会 比 年 老 代 对 象 小 得 多 。 


10.2.4 ” 栈 上 分 配 


一 些 研究 者 建议 ， 任 何 情况 下 都 应 当 尽 可 能 在 栈 上 而 非 堆 中 分 配对 象 。 尽 管 研 究 者 们 提 
出 了 多 种 不 同 的 方案 , 但 真正 实现 的 却 很 少 ， 用 于 生产 系统 的 则 更 是 寥寥 无 几 。 栈 上 分 配 存 
在 多 种 优势 : 它 可 以 潜在 降低 垃圾 回收 的 频率 ; 在 栈 上 分 配对 象 无 需 进行 昂贵 的 扫描 或 者 引 
用 计数 操作 ; 栈 上 分 配 在 理论 上 应 当 具 有 较 高 的 高 速 缓存 友 好 性 。 但 其 不 足 之 处 在 于 ， 在 栈 
帧 中 分 配 的 对 象 寿命 很 可 能 会 被 延长 ， 进 而 长 期 占用 栈 空 间 8 。 

栈 上 分 配 技术 的 关键 在 于 ， 如 何 才能 确保 栈 上 分 配 的 对 象 不 会 被 其 他 寿命 更 长 的 对 象 引 
用 。 可 以 通过 保守 式 逃 逸 分 析 来 达到 这 一 目的 (例如 [Blanchet, 1999; Gay and Steensgaard, 
2000; Corry,2006])， 也 可 以 在 运行 时 利用 写 屏障 捕获 逃逸 对 象 。Baker[1992b] 最 早 提出 (但 
并 非 最 早 实 现 ) 以 一 个 独立 进行 垃圾 回收 的 堆 作 为 上 下 文 〈context) 来 实现 栈 上 分 配 。 如 果 
栈 沿 着 远离 堆 的 方向 增长 ， 则 我 们 可 以 使 用 一 个 高 效 的 、 基 于 地 址 比较 的 写 屏 障 来 判断 哪些 
堆 中 的 对 象 会 比 其 所 引用 的 栈 上 对 象 存 活 得 更 久 。 一 旦 发 生 这 样 的 情况 ， 便 需 将 栈 上 对 象 复 
制 ( 即 “懒惰 分 配 ”) 到 堆 中 。 该 方案 还 需 引 入 一 个 读 屏 障 来 处 理由 这 一 复制 过 程 所 产生 的 
转发 地 址 。 还 有 一 些 研究 者 建议 将 栈 上 对 象 分 配 在 独立 于 调用 栈 (call stack) 之 外 的 栈 帧 中 。 
Cannarozzi 等 [2000] 使 用 写 屏 障 来 进行 堆 的 划分 ， 且 将 每 个 分 区 与 可 能 引用 该 分 区 的 最 老 
的 活动 记录 相关 联 ， 但 不 幸 的 是 ， 该 方案 (在 Sun handle-based JDK 1.1.8 中 ) 的 开销 巨大 : 
每 个 对 象 都 需要 额外 引入 4 个 32 位 的 字 。Qian 和 Hendren [2002] 使 用 懒惰 帧 分 配 的 策略 以 


O 注意 不 要 将 这 一 概念 与 分 布 式 引用 计数 系统 中 的 引用 列表 混 消 ， 后 者 保存 的 是 所 有 引用 了 其 所 对 应 目标 对 象 
的 进程 列表 。 
日 只 有 在 线程 退 栈 时 才 可 能 将 其 销毁 。 一 一 译 者 注 
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避免 分 配 出 空 帧 ， 并 且 在 帧 中 对 象 发 生 逃 逸 时 将 该 帧 打上 全 局 共享 标记 位 。 在 这 种 情况 下 ， 
写 屏 障 同 时 也 需要 对 分 配 该 对 象 的 代码 地 址 做 共享 标记 ( 即 标记 此 处 分 配 的 对 象 可 能 会 成 为 
共享 对 象 一 一 译 者 注 )， 但 这 就 需要 在 对 象 头 部 记录 分 配 该 对 象 的 代码 地 址 。 他 们 复 用 对 象 
头 部 中 的 锁 相关 域 来 存放 这 一 地 址 ， 但 其 代价 是 一 旦 对 某 一 帧 中 对 象 加 锁 ， 则 整个 帧 都 必须 
被 打上 全 局 共享 标记 。 不 幸 的 是 ， 库 代码 通常 会 包含 许多 宛 余 〈 即 局 部 的 ) 的 锁 操 作 CER 
如 此 偏向 锁 (biased locking) 才 显 得 十 分 高 效 )。Corry[2006] 使 用 开销 更 低 的 过 程 内 逃逸 分 
析 技 术 ， 该 方案 将 对 象 帧 与 循环 而 非 函 数 调 用 相关 联 ， 从 而 可 以 较 好 地 对 动态 类 系 加 载 、 反 
射 、 工 厂 方法 等 进行 处 理 。 

Azul 系统 的 多 核 多 处 理 器 Java 设备 可 以 在 硬件 层面 支持 对 象 逃 逸 检测 。 当 在 栈 上 分 配 
一 个 对 象 时 ， 指 针 中 的 某 几 位 将 被 用 于 记录 其 所 处 的 帧 在 栈 中 的 深度 。 指 针 加 载 操 作 会 忽略 
这 些 位 ， 但 指针 写 操作 却 会 对 其 进行 检测 : 如 果 将 较 新 帧 中 对 象 的 引用 写 入 到 较 老 的 帧 中 ， 
则 会 触发 一 个 陷阱 ， 陷 阱 处 理 函 数 会 移动 对 象 并 修正 其 所 有 的 引用 来 源 (该 对 象 只 可 能 被 其 
他 更 新 的 帧 所 引用 )。 修 正 操作 的 开销 较 大 ， 因 而 只 有 此 类 情况 很 少 发 生 时 才 可 以 确保 栈 上 
分 配 的 效率 。 如 果 某 一 对 象 的 栈 上 分 配 可 能 导致 帧 过 大 ， 则 Azul 会 将 该 对 象 分 配 到 额外 的 
溢出 区 域 中 。Azul 发 现 ， 它 们 仍 需要 借助 于 偶尔 执行 的 线程 本 地 回收 来 处 理 长 寿 帧 中 已 经 
死亡 的 栈 上 分 配对 象 。 

综 上 所 述 ， 大 多 数 栈 上 分 配 策略 到 目前 为 止 都 仍 未 实现 ， 即 使 那些 宣称 已 经 实现 的 算法 
通常 也 缺乏 相对 系统 的 细节 ， 或 者 并 未 取得 显著 的 性 能 提升 。 不 可 否认 的 是 ， 在 许多 应 用 程 
序 中 很 大 一 部 分 对 象 都 可 以 使 用 栈 上 分 配 ， 且 它们 中 的 大 多 数 通常 都 十 分 短命 (Azul 发 现 
在 大 型 Java 应 用 程序 中 一 半 以 上 的 对 象 可 以 进行 栈 上 分 配 )， 但 这 却 正 是 分 代 垃 圾 回收 可 以 
充分 发 挥 优势 的 场景 。 栈 上 分 配 完 竟 是 否 可 以 降低 内 存 管理 的 开销 ， 目 前 尚 无 定论 。 栈 上 分 
配 的 另 一 个 问题 在 于 ， 它 会 将 整个 对 象 都 置 于 高 速 缓存 中 ， 从 而 减少 内 存 带宽 ， 即 使 高 速 组 
存 足够 大 ， 这 一 情况 也 不 会 得 到 优化 。 一 种 有 效 的 解决 方案 是 纯 值 替换 〈scalar replacement) 
或 者 对 象 内 联 (object inling)， 即 以 局 部 变量 来 蔡 代 对 象 的 域 [Dolby，1997 ; Dolby and 
Chien, 1998, 2000 ; Gay and Steensgaard，2000]。 面 向 对 象 程 序 中 迭代 器 的 实现 便 是 纯 值 
替换 的 一 种 典型 应 用 场景 。 


10.2.5 区域 推 断 


栈 上 分 配 在 更 加 通用 的 、 基 于 区 域 划 分 的 内 存 管理 策略 中 属于 一 种 受 限 的 形式 。 基 于 区 
域 划分 来 管理 内 存 的 基本 出 发 点 在 于 ， 如 果 将 对 象 分 配 在 不 同 区 域 中 ， 则 一 旦 某 一 区 域 中 的 
所 有 对 象 都 不 再 被 程序 使 用 ， 回 收 器 便 可 立即 将 整个 区 域 回收 。 区 域 的 回收 通常 可 以 在 常数 
时 间 内 完成 。 何 时 需要 创建 一 个 区 域 、 应 当 将 对 象 分 配 到 哪个 区 域 、 何 时 需要 对 区 域 进行 回 
We, 这些 工作 可 以 由 开发 者 自己 实现 ， 也 可 以 由 编译 器 或 者 运行 时 系统 来 完成 ， 也 可 以 将 三 
者 相 结合 。 例 如 ， 开 发 者 可 能 需要 添加 一 些 显 式 的 指令 或 者 注释 来 创建 、 回 收 区 域 ， 或 者 强 
制 要 求 将 对 象 分 配 到 某 一 区 域 。 最 知名 的 显 式 系统 可 能 是 RTSJ (Real-Time Specification for 
Java)。 除 了 标准 堆 之 外 ，RTSJ 提供 了 一 个 永久 性 区 域 以 及 多 个 受 限 区 域 ， 该 系统 同时 对 合 
法 的 指针 方向 做 出 限制 : 外 层 受 限 区 域 中 的 对 象 不 允许 引用 内 层 受 限 区 域 中 的 对 象 。 

还 有 一 些 基 于 分 区 的 系统 放松 了 对 指针 方向 的 要 求 ， 也 就 是 说 ， 即 使 某 一 区 域 中 的 对 象 
仍 被 其 他 存活 对 象 所 引用 ， 回 收 器 也 可 以 将 其 回收 ， 但 是 为 了 确保 安全 ， 必 须 确 保 赋值 器 不 
会 访问 指向 已 回收 区 域 的 悬挂 指针 (dangling pointer)。 此 类 系统 通常 都 需要 在 编译 期 推断 
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出 应 当 将 对 象 分 配 到 哪个 区 域 ， 或 者 何 时 才能 安全 地 回收 区 域 ， 或 者 对 开发 者 的 注释 进行 检 
测 (可 能 在 非 标 准 系统 中 )。 其 中 最 著名 的 当 属 为 标准 ML 所 设计 的 全 原子 化 区 域 推断 系统 
[Tofte 等 ，2004]。 如 果 谨 慎 使 用 ， 该 系统 可 以 提升 程序 的 性 能 并 减少 内 存 的 使 用 量 , 但 该 系 
统 也 严重 依赖 于 开发 者 的 编程 风格 ， 同 时 要 求 开发 者 对 区 域 推断 算法 有 着 很 深 的 理解 (尽管 
无 需 理解 其 具体 实现 )。 在 区 域 推断 系统 中 ， 即 使 用 户 对 代码 进行 很 小 的 修改 ， 也 会 引发 推 
断 结果 的 显著 变化 ， 这 在 无 形 中 增加 了 开发 者 对 算法 的 理解 难度 以 及 程序 的 维护 难度 。ML 
Kit 的 推断 算法 在 大 型 程序 中 开销 巨大 (例如 ， 编 译 一 个 仅 58 000 行 的 程序 就 需要 花费 一 个 
半 小 时 )。Tofte 等 人 建议 ， 最 好 的 实践 方案 是 仅 将 区 域 推断 用 于 已 经 深入 理解 的 编程 模式 上 ， 
而 其 他 部 分 的 管理 则 应 当 交 由 垃圾 回收 器 。 


10.3 混合 标记 -清扫 、 复 制式 回收 器 


在 对 内 存 块 中 的 存活 对 象 进行 处 理 时 ，Spoonhower 等 [2005] 引入 两 个 阔 值 来 判断 
是 应 当 将 其 复制 ， 还 是 对 其 进行 标记 一 清扫 。 当 内 存 块 中 存活 对 象 的 比例 小 于 迁移 阅 值 
(evacuation threshold) 时 ， 则 将 其 复制 到 
其 他 内 存 块 ， 而 当 内 存 块 中 的 空闲 内 存 
大 于 分 配 阅 值 (allocation threshold) 时 ， 
该 内 存 块 才 可 以 用 于 分 配 。 这 两 个 冰 值 
决定 着 何 时 以 及 如 何 减 少 内 存 碎 片 。 例 
如 ， 标 记 - 清 扫 回 收 器 的 迁移 冰 值 为 零 
( 即 任何 情况 下 都 不 会 复制 存活 对 象 ), 但 
分 配 阅 值 为 100% ( 即 内 存 块 中 的 任何 空 


标记 一 清扫 


闲 内 存 都 可 以 用 于 分 配 )， 而 半 区 复制 回 
收 器 的 迁移 阔 值 为 100%， 且 其 分 配 阔 值 
AS (在 下 一 次 回收 之 前 ,来源 空间 将 
不 会 用 于 内 存 分 配 )， 如 图 10.5 所 示 。 过 
于 消极 〈( 即 迁移 阔 值 和 分 配 阔 值 都 较 低 ) 
的 内 存 管理 器 会 受到 内 存 碎 片 问题 的 影 
啊 ， 而 过 于 积极 ( 即 迁 移 阔 值 和 分 配 阔 
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图 10.5 追踪 式 回 收 器 的 连续 性 。Spoonhower 等 人 对 比 


了 追踪 式 回 收 器 的 迁移 阔 值 和 分 配 阔 值 ， 前 者 
表示 内 存 块 中 存活 对 象 达 到 多 小 的 比例 时 才 使 
用 复制 的 方式 进行 回收 ， 后 者 表示 内 存 块 中 的 
空闲 内 存 达到 多 大 比例 时 才 可 以 用 于 内 存 分 配 


值 都 较 高 ) 的 管理 器 则 会 存在 较 大 的 性 
能 开销 ， 因 为 它 需 要 对 数据 进行 复制 ， 
或 者 需要 更 多 的 堆 遍 历 过 程 。 

大 型 或 者 长 期 运行 的 应 用 程序 很 容易 受到 内 存 碎片 问题 的 影响 ， 除 非 使 用 整理 式 回收 器 
来 管理 堆 内 存 。 但 与 非 移动 式 回 收 器 相 比 ， 整 理 操作 无 论 是 在 时 间 上 还 是 空间 上 都 存在 较 大 
开销 。 半 区 复制 算法 需要 一 个 额外 的 复制 保留 区 ， 而 标记 一 整理 算法 则 需要 进行 多 次 堆 遍 历 
才能 完成 对 象 的 移动 。 为 解决 这 一 问题 ，Lang 和 Dupont[1987] 提出 将 标记 一 清扫 回收 与 半 
区 复制 相 结 合 ， 同 时 在 堆 中 进行 增 量 内 存 整 理 的 方案 ( 即 一 次 只 整理 一 个 内 存 区 域 ) 。 该 方 
案 将 整个 堆 空间 划分 为 上 + 1 个 大 小 相等 的 窗口 ， 其 中 包含 一 个 空 窗 口 。 回 收 开 始 时 ， 回 收 
器 选 定 某 个 窗口 作为 来 源 空 间 ， 并 以 空 窗口 作为 目标 空间 ， 而 其 他 窗口 则 使 用 标记 一 清扫 策 
略 进行 管理 。 在 追踪 过 程 中 ， 回 收 器 会 将 来 源 窗 口中 的 存活 对 象 复 制 到 目标 窗口 中 ， 同 时 对 
其 他 窗口 中 的 对 象 进行 标记 ( 见 图 10.6 )。 与 此 同时 ， 回 收 器 必须 确保 将 所 有 窗口 中 指向 来 


Spoonhower et al [2005], doi: 10.1145/1064979.1064989. 
© 2005 Association for Computing Machinery, Inc., 经 许可 后 转载 
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源 窗口 的 引用 更 新 到 目标 窗口 中 的 对 应 副本 里 。 
目标 空间 。 来 源 空间 





b) 回收 之 后 
图 10.6 渐进 式 增 量 整理 垃圾 回收 。 回 收 器 将 某 一 窗口 (来 源 空间 ) 中 的 存活 对 象 复制 到 灰色 方 框 所 示 的 
空 窗口 (目标 空间 )， 其 他 窗口 则 在 原 地 回收 。 每 次 回收 完成 后 ， 来源/ 目标 窗口 的 索引 号 将 向 
前 递增 ， 最 终 便 可 实现 整个 堆 的 整理 
Jones [1996]， 经 许可 后 转载 


通过 这 种 一 次 复制 一 个 窗口 的 方式 ，Lang 和 Dupont 可 以 通过 大 次 回收 实现 整个 堆 的 整 
理 ， 其 空间 开销 仅 为 可 用 堆 空 间 的 1/k。 与 标记 一 整理 算法 不 同 ,该 方案 无 需 额外 的 堆 遍 历 
过 程 或 者 其 他 额外 数据 结构 。 他 们 同时 发 现 ， 即 使 目标 空间 使 用 Cheney 算法 进行 管理 ， 整 
体 算法 的 追踪 顺序 也 具有 一 定 的 柔性 : 在 追踪 阶段 的 每 一 步 ， 回 收费 都 可 以 从 标记 一 清扫 
和 半 区 复制 两 个 工作 列表 中 选择 一 个 来 获取 对 象 ， 不 过 Lang 和 Dupont 建议 优先 处 理 标 记 — 
清扫 回收 的 工作 列表 ， 这 样 不 仅 有 助 于 限制 标记 栈 的 大 小 ， 而 且 标 记 一 清扫 回收 通常 会 比 
Cheney 扫描 具有 更 好 的 局 部 性 。 

Spoonhower 等 [2005] 为 C# 所 设计 的 回收 器 则 使 用 更 加 富有 弹性 的 方案 。 该 方案 使 用 
内 存 块 容量 预测 技术 来 判定 某 一 内 存 块 是 需要 进行 原 地 回收 ， 还 是 需要 使 用 复制 式 回收 ， 这 
可 以 使 用 静态 预测 方法 (如 大 对 象 空间 所 占用 的 内 存 块 ) 并 使 用 固定 的 迁移 阔 值 (分 代 回 收 
器 假定 存活 下 来 的 年 轻 对 象 数量 很 少 )， 也 可 以 使 用 动态 预测 或 者 动态 阔 值 ( 即 在 追踪 阶段 
进行 判定 )。Spoonhower 等 人 根据 上 次 回收 的 结果 来 预测 适合 某 一 内 存 块 的 回收 方式 (被 钉 
住 对 象 的 内 存 块 只 能 进行 原 地 回收 )， 进 而 无 需 在 回收 过 程 中 引入 额外 的 遍历 过 程 。Dimpsey 
等 [2000] ( 稍 后 将 对 其 进行 描述 ) 也 使 用 类 似 的 策略 ， 但 它们 需要 维护 一 个 空闲 间隙 链表 ， 
并 在 其 中 进行 阶 跃 指 针 分 配 。 


10.3.1 Garbage-First 回收 


Garbage-First[Detlefs 等 ，2004] 是 一 种 精密 有 旦 复杂 的 增 量 整理 算法 ， 其 目的 在 于 满足 软 实 
时 性 能 要 求 ， 即 在 任意 y 毫秒 的 时 间 切 片 中 ， 花 费 在 垃圾 回收 上 的 时 间 均 不 超过 x 毫秒。 该 算 
法 在 Sun 微 系统 IDK 7 HotSpot VM 中 引入 ， 并 将 以 长 期 演进 的 方式 逐渐 替代 原 有 的 并 发 标记 - 
清扫 回收 器 ， 从 而 达到 更 加 可 预测 的 整理 响应 时 间 要 求 。 本 节 我 们 仪 关注 该 算法 的 分 区 策略 。 

与 Lang 和 Dupont 的 回收 器 类 似 ,Garbage-First 也 将 堆 空间 划分 为 数 个 虚拟 地 址 连续 的 、 
大 小 相等 的 窗口 。 该 算法 在 整体 上 存在 一 个 用 于 内 存 分 配 的 、 来 自 空 窗口 列表 的 当前 窗口 。 
为 减少 多 个 赋值 器 线 程 之 间 的 同步 ， 每 个 线程 都 拥有 本 地 顺序 分 配 缓冲 区 ， 而 这 一 缓冲 区 本 
身 是 使 用 compareandswap 原子 操作 从 当前 分 配 窗口 中 分 配 出 来 的 。 大 对 象 也 可 简单 地 从 当 
前 分 配 窗 口中 直接 分 配 ， 特 别 大 的 对 象 ( 即 大 于 单个 窗口 3/4 的 对 象 ) 则 会 从 其 专属 的 窗口 
序列 中 进行 分 配 。 

与 Lang 和 Dupont 的 方案 不 同 ，Garbage-First 允许 选择 任意 窗口 进行 回收 ， 这 便 要 求 赋 
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值 器 写 屏 障 记 录 所 有 跨 窗口 指针 的 创建 。 特 别 需 要 注意 的 是 ， 此 处 需要 记录 的 是 所 有 路 窗 口 
的 指针 ， 而 不 是 像 火车 回收 器 那样 只 需要 记录 单方 向 跨 火 车 /车厢 指 针 (因为 火车 回收 器 会 
以 可 预测 的 方式 对 车 有 厢 进 行 回收 )。Garbage-First 使 用 过 滤 式 写 屏 障 ， 它 使 用 卡 表 来 记录 回 
收 相关 指针 (我 们 将 在 第 11 章 进 行 详细 讨论 )。 

基于 Printezis 和 Detlefs [2000] 的 位 图 标记 技术 (参见 第 2 章 )， 单 个 回收 器 线程 可 以 在 
赋值 器 执行 的 同时 进行 并 发 堆 标 记 (参见 第 16 章 )。 一 旦 完成 标记 过 程 ，Garbage-First 便 通 
过 位 图 来 选择 定罪 窗口 ， 然 后 挂 起 所 有 赋值 器 线程 以 实现 定罪 窗口 的 整理 。 定 罪 窗 口 通常 是 
那些 存活 数据 占 比 较 低 的 窗口 。Garbage-First 也 可 对 窗口 进行 分 代 式 的 处 理 。 在 纯粹 的 “全 
年 轻 ” 模 式 下 ， 定 罪 窗口 将 是 那些 在 上 一 次 回收 之 后 用 于 分 配 的 窗口 。 而 在 “部 分 年 轻 ” 模 
式 下 ， 回 收 器 可 以 额外 地 将 一 些 窗口 增加 到 定罪 窗口 集合 。 无 论 在 哪 种 分 代 模 式 下 ， 写 屏障 
都 可 以 过 滤 掉 来 自 年 轻 代 的 指针 。 与 其 他 策略 类 似 ，Garbage-First 试图 识别 出 富 引用 对 象 并 
将 其 隔离 在 专属 的 窗口 中 ， 此 类 窗口 永远 不 会 被 加 入 到 定罪 窗口 集合 中 ， 因 而 也 无 需 任何 形 
式 的 记忆 集 。 


10.3.2 Immix 回收 以 及 其 他 回收 


接 下 来 我 们 将 介绍 3 种 回收 器 ， 它 们 都 通过 付出 一 定 的 时 间或 空间 开销 来 解决 标记 - 清 
扫 回 收 的 碎片 化 问题 。 每 种 回收 器 都 通过 一 种 不 同 的 方式 来 解决 如 下 3 个 问题 : 如何 最 好 地 
利用 堆 空 间 、 如 何 避 免 对 去 碎片 化 操作 (复制 或 标记 一 整理 ) 的 依赖 、 如 何 降低 回收 器 循环 
的 时 间 开 销 。 

Dimpsey 等 [2000] 为 IBM 服务 器 的 Java 虚拟 机 1.1.7 版 本 设计 了 一 种 复杂 的 并 行 标 
记 一 清扫 (偶尔 执行 整理 操作 ) 回收 器 。 与 Sun 的 1.1.5 版 本 回收 器 类 似 ， 该 方案 也 使 用 线 
程 本 地 分 配 缓冲 区 2 ， 小 对 象 将 直接 在 该 缓冲 区 中 进行 顺序 分 配 ， 缓 冲 区 本 身 以 及 大 对 象 ( 比 
缓冲 区 大 小 的 1/4 还 大 的 对 象 ) 则 使 用 空闲 链表 分 配 并 需要 一 定 的 同步 操作 。Dimpsey 等 人 
发 现 ， 如 果 仅 依赖 这 一 架构 ， 回 收 器 的 性 能 会 非常 差 。 大 多 数 空闲 链表 的 分 配 需求 都 是 为 线 
程 申 请 新 的 本 地 分 配 缓冲 区 ， 但 靠近 链表 头 部 的 空闲 内 存单 元 通常 无 法 满足 这 一 分 配 需求 ， 
从 而 导致 较 长 的 查找 时 间 。 为 解决 这 一 问题 ， 他 们 额外 引入 了 两 个 空闲 链表 ， 一 个 仅 用 于 
分 配 线程 本 地 缓冲 区 (1.5KB 外 加 缓冲 区 头 部 )， 另 一 个 则 用 于 分 配 超过 缓冲 区 大 小 且 小 于 
512KB 的 对 象 。 一 旦 用 于 分 配 线程 本 地 缓冲 区 的 空闲 链表 为 空 ， 则 分 配器 从 另 一 个 大 对 象 
链表 中 分 配 一 个 大 块 内 存 ， 并 将 其 分 割 成 多 个 缓冲 区 。 这 一 优化 大 大 提高 了 Java 应 用 程序 
在 单 处 理 器 上 的 执行 性 能 ， 对 于 多 处 理 而 言 效果 更 佳 。 

Dimpsey 等 人 使 用 额外 的 位 图 来 标记 对 象 ， 在 清扫 阶段 对 位 图 进行 遍历 时 ， 回 收 器 可 以 
一 次 检测 一 个 字 节 或 者 一 个 字 。 他 们 同时 对 清扫 过 程 进行 了 一 定 的 优化 : 他 们 引入 两 个 表 以 
快速 计算 位 图 中 任意 一 个 字 节 所 对 应 的 前 导 与 尾部 为 零 位 ， 清 扫 器 会 避免 对 较 小 的 连续 垃圾 
空间 进行 处 理 ， 并 通过 对 象 头 部 中 的 一 个 标记 位 来 区 分 大 对 象 与 较 小 的 连续 垃圾 空间 。 在 回 
收 完成 后 ， 分 配器 只 会 从 新 的 缓冲 区 中 进行 顺序 分 配 ， 即 使 某 一 分 配 缓冲 区 中 存在 部 分 可 用 
空间 ， 分 配器 也 不 会 从 其 中 分 配 任 何 对 象 。 这 一 策略 不 仅 可 以 减少 清扫 时 间 ， 同 时 也 缩短 了 

[151] ”空闲 链表 的 长 度 ， 因 为 其 中 不 再 包含 任何 小 块 空闲 内 存 。 

这 一 策略 的 潜在 开销 在 于 ， 回 收 器 并 未 将 某 些 空闲 内 存 归还 给 分 配器 。 但 由 于 对 象 通 

常 “成 篮 创 建 ， 成 批 死 亡 ”， 因 而 Dimpsey 等 人 可 以 尽量 少 地 依赖 整理 过 程 。 根 据 Johnstone 


与 我 们 使 用 的 术语 不 同 ，Dimpsey 将 其 称 为 “线程 本 地 堆 ”。 
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[1997] 的 建议 ， 他 们 使 用 基于 地 址 顺序 的 首次 适应 分 配 策略 以 增加 在 可 用 堆 中 创建 足够 大 的 
空洞 的 几率 。 另 外 他 们 还 允许 在 线程 本 地 分 配 中 使 用 可 变 大 小 的 内 存 块 : 如 果 空 闲 链表 中 第 
一 个 用 于 线程 本 地 分 配 的 缓冲 区 小 于 某 一 期 望 值 7 ( 即 6KB)， 则 线程 将 直接 使 用 该 缓冲 区 
(注意 该 缓冲 区 不 应 小 于 空闲 链表 允许 插入 的 最 小 空间 大 小 ) ; 如 果 其 大 小 介 于 了 和 27 之 间 ， 
则 将 其 拆 分 为 两 个 大 小 相等 的 缓冲 区 ; 和 否则 将 从 该 缓冲 区 中 分 裂 出 一 个 大 小 为 了 的 缓冲 区 。 
Dimpsey 等 人 还 在 堆 中 预 留 5% 的 空间 以 用 于 拓展 块 保护 [Korn and Vo，1985]， 即 仅 在 回收 
完成 之 后 可 用 空间 依然 不 足 的 情况 下 才 动 用 这 些 内 存 。 

45 IBM 服务 器 中 的 方案 实现 类 似 ，Immix 回收 器 [Blackburn and McKinley, 2008] 也 通 
过 这 一 方式 避免 内 存 碎片 化 。 该 回收 器 也 属于 主体 标记 -清扫 回收 器 ， 但 其 在 必要 情况 下 消 
除 碎 片 的 方法 是 复制 式 而 非 整 理 式 回收 。Immix 回收 器 与 本 节 所 介绍 的 其 他 回收 器 一 样 使 用 
块 结构 堆 。 回 收 器 将 堆 空 间 划分 为 32KB 的 内 存 块 ， 这 不 仅 是 线程 为 本 地 分 配 缓冲 区 申请 空 
间 的 单元 ， 也 是 执行 碎片 整理 的 操作 单元 。 每 次 回收 过 程 中 ， 回 收回 会 根据 上 次 回收 的 结 
果 来 预测 哪些 内 存 块 需要 进行 原 地 回收 ， 哪 些 内 存 块 需要 进行 复制 式 回 收 (与 Spoonhower 
等 人 的 方法 类 似 ， 但 与 Detlefs 等 人 的 方法 不 同 ， 后 者 基于 并 发 标记 来 进行 预测 )。IBM 服 
务 器 中 的 回收 器 以 及 Immix 回收 器 都 使 用 速度 较 快 的 顺序 分 配 策略 ， 不 同 之 处 在 于 前 者 减 
少 碎片 的 方式 是 从 大 小 可 变 的 缓冲 区 中 进行 分 配 ， 而 后 者 允许 在 部 分 可 用 的 缓冲 区 中 以 行 
(line) 为 单位 的 间隙 里 进行 分 配 ， 行 的 大 小 通常 为 128 字 节 ， 大 致 与 高 速 缓存 行 的 大 小 匹 
配 。Dimpsey 等 人 对 清扫 过 程 的 优化 方法 是 忽略 对 较 小 连续 垃圾 空间 的 处 理 ， 而 Blackburn 
All McKinley 则 是 以 行为 单位 来 回收 可 复 用 内 存 块 中 的 空间 。 下 面 我 们 将 介绍 Immix 回收 器 
的 实现 细节 。 

Immix 回收 器 同时 支持 从 完全 为 空 以 及 部 分 为 空 ( 即 可 复 用 ) 的 内 存 块 中 进行 分 配 。 
图 10.7 展示 了 可 复 用 内 存 块 的 结构 。Immix 回收 器 将 对 象 划分 为 大 对 象 (它们 将 从 大 对 象 空 
间 中 分 配 )、 中 等 对 象 ( 即 大 小 超过 一 个 行 的 对 象 ) 以 及 小 对 象 ， 大 多 数 Java 对 象 都 是 小 对 
象 。 算 法 10.1 展示 了 Immix 回收 器 分 配 小 对 象 或 者 中 等 对 象 的 方法 。Immix 回收 器 优先 将 
对 象 分 配 到 可 复 用 内 存 块 的 空隙 中 ， 其 所 使 用 的 分 配 算法 为 线性 循环 首次 适应 分 配 法 。 在 算 
法 的 快速 路 径 中 ， 分 配器 尝试 在 当前 连续 空闲 行 序列 中 进行 顺序 分 配 〈 第 2 行 )， 如 果 失 败 ， 
则 区 分 小 对 象 和 中 等 对 象 并 执行 不 同 的 分 配 策略 。 









lineCursor J blocktursss-! | 
lineLimit blockLimit 


| | 刚刚 用 于 分 配 的 行 | jema 








图 10.7 Immix 回收 器 中 的 内 存 分 配 。 图 中 展示 了 一 个 内 存 块 (block) 中 的 行 (line)。Immix 回收 器 使 用 
顺序 分 配 策略 从 可 复 用 内 存 块 中 分 配 小 对 象 ， 即 Linecursor 向 着 lineLimit 的 方向 移动 ， 两 
者 汇合 之 后 再 将 它们 分 别 移动 到 下 一 个 空闲 行 序列 的 首尾 。 中 等 大 小 的 对 象 则 使 用 顺序 分 配 策 
略 在 完全 为 空 的 内 存 块 中 分 配 。Immix 回收 器 需要 同时 对 行 和 对 象 进行 标记 。 由 于 小 对 象 可 能 
会 跨越 两 个 行 (但 不 可 能 跨越 更 多 行 )， 所 以 〈 显 式 ) 标记 行 之 后 的 一 行 都 会 得 到 隐 式 标记 ， 分 
配器 不 会 从 这 些 行 中 进行 分 配 
Blackburn and McKinley [2008], doi: 10.1145/1375581.1375586. 
© 2008 Association for Computing Machinery, Inc., 经 许可 后 转载 
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算法 10.1 Immix 回收 器 中 的 内 存 分 配 


1 alloc(size): 

2 addr + sequentialAllocate(lines) 
3 if addr # null 

4 return addr 

5 if size < LINE_SIZE 
6 return allocSlowHot(size) 
7 else 

8 return overflowAlloc(size) 
9 


w allocSlowHot(size): 
u lines + getNextLineInBlock() 


2 if lines = null 

13 lines + getNextRecyclableBlock() 

4 if lines = null 

15 lines + getFreeBlock() 

16 if lines = null 

v return null /* 内 存 耗 尽 */ 
18 return alloc(size) 


overflowAlloc(size): 
addr + sequentialAllocate(block) 
if addr # null 
return addr 
block + getFreeBlock() 
if block = null 
return null /* ARR */ 
return sequentialAllocate(block) 
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我 们 先 考 虑 小 对 象 的 分 配 策略 。 分 配器 先 在 当前 内 存 块 中 查找 下 一 个 空闲 行 序列 (第 
11 行 )， 如 果 失 败 ， 则 尝试 从 下 一 个 可 复 用 内 存 块 (第 13 行 ) 的 空闲 行 或 者 下 一 个 空 内 存 块 
(第 15 行 ) 中 进行 分 配 。 如 果 后 续 两 个 尝试 均 失 败 ， 则 发 起 垃圾 回收 。 需 要 注意 的 是 ， 与 首 
次 适应 分 配 不 同 ， 分 配器 永远 不 会 在 部 分 填充 的 行 中 分 配对 象 。 

在 大 多 数 应 用 程序 中 ， 少 量 Java 对 象 的 大 小 可 能 会 超过 一 行 ， 但 不 会 太 大 。Blackburn 
和 McKinley 发 现 ， 如 果 对 这 些 对 象 使 用 与 小 对 象 相同 的 方式 进行 处 理 ， 则 会 浪费 大 量 行 。 
因此 ， 为 避免 在 可 复 用 内 存 块 中 引入 碎片 ， 他 们 使 用 顺序 分 配 策略 直接 从 空闲 内 存 块 中 分 配 
中 等 大 小 的 对 象 (用 overflowalloc 方法 )。 他 们 还 发 现 ， 绝 大 多 数 对 象 都 是 从 完全 为 空 的 内 
存 块 或 者 使 用 率 不 超过 1/4 的 内 存 块 中 分 配 的 。 小 对 象 和 中 等 对 象 均 是 在 线程 本 地 缓冲 区 中 
进行 分 配 ， 只 有 当 获 取 一 个 新 的 内 存 块 时 ， 才 需要 使 用 同步 操作 (对 于 部 分 为 空 以 及 完全 为 
空 的 内 存 块 均 是 如 此 )。 

Immix 回收 器 需要 同时 对 行 (作者 称 之 为 标记 区 域 ) 和 对 象 进行 标记 (对 后 者 进行 标记 
是 为 了 确保 扫描 过 程 的 正常 结束 )。 从 定义 上 来 看 ， 小 对 象 所 占用 的 空间 必然 小 于 一 行 ， 但 
它 仍 有 可 能 跨越 两 个 行 ， 因 此 Immix 回收 器 会 对 小 对 象 占据 的 第 二 个 行进 行 隐 式 ( 且 保 守 ) 
标记 ， 即 所 有 位 于 某 个 已 标记 行 之 后 的 行 都 会 被 分 配器 忽略 ( 见 图 10.7 )。 这 样 便 造成 在 最 
差 情况 下 ， 每 个 间隙 内 部 都 可 能 会 有 一 行 被 浪费 。Blackburn 和 McKinley 发 现 ， 如 果 在 扫描 
对 象 时 (而 不 是 标记 对 象 同时 将 其 添加 到 工作 列表 时 ) 标记 其 所 在 的 行进 行 有 助 于 提升 追踪 
过 程 的 性 能 ， 因 为 开销 更 大 的 扫描 操作 可 以 掩盖 对 行进 行 标记 的 延迟 。 与 小 对 象 不 同 ， 回 收 
器 会 对 中 等 对 象 所 在 的 行进 行 精确 标记 (根据 对 象 头 部 的 一 个 位 来 区 分 小 对 象 和 中 等 对 象 ) 。 

Immix 回收 器 只 需 偶 尔 执行 整理 操作 ， 且 整理 过 程 可 以 在 标记 过 程 中 进行 。 是 否 需 要 
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整理 取决 于 某 个 描述 堆 碎 片 化 程度 的 统计 变量 ， 清 扫 器 在 每 次 回收 完成 后 都 会 设置 该 变量 。 
Immix 回收 器 根据 每 个 内 存 块 中 空隙 和 已 标记 行 的 数量 来 衡量 碎片 化 程度 ， 并 在 下 一 次 回收 
过 程 中 选择 碎片 程度 最 高 的 内 存 块 作为 备 选 整理 对 象 。 由 于 统计 变量 只 是 作为 整理 过 程 的 一 
个 参考 ， 所 以 回收 器 可 以 在 空间 不 足 的 情况 下 中 止 整理 过 程 。 在 实际 应 用 中 ，Immix 回收 需 
在 大 多 数 基准 测试 程序 中 都 不 太 需 要 进行 整理 。 


10.3.3” 受 限 内 存 空 间 中 的 复制 式 回收 


上 述 各 种 增 量 回收 技术 都 仅 需要 一 个 内 存 块 作为 复制 保留 区 ， 且 需要 经 历 多 次 回收 才能 
完成 整个 堆 的 整理 。Sachindran 和 Moss[2003] 将 这 一 技术 应 用 在 内 存 空 间 受 限 环境 下 的 分 
代 回 收 器 中 。 他 们 所 设计 的 Mark-Copy 回收 器 将 年 老 代 划分 为 一 组 连续 的 内 存 块 ， 但 在 进 
行 整 堆 回 收 时 ， 该 回收 器 可 以 一 次 完成 多 个 内 存 块 中 存活 对 象 的 迁移 ， 而 非 一 次 只 处 理 一 个 
内 存 块 。 与 其 他 分 代 回收 器 类 似 ， 用 于 对 象 分 配 的 新 生 区 回收 频率 较 高 ， 其 中 的 存活 对 象 会 
被 提升 到 年 老 代 。 如 果 堆 中 只 剩 一 个 空闲 内 存 块 ， 则 会 发 起 整 堆 回 收 。 

如 果 回 收 器 可 独立 回收 每 个 内 存 块 ， 则 必须 记录 所 有 内 存 块 之 间 的 指针 ， 这 将 使 写 屏 
障 的 设计 更 加 复杂 ， 因 为 原本 只 需 记 录 跨 代 指 针 而 现在 还 需要 记录 跨 内 存 块 的 指针 。 因 此 
Mark-Copy 回收 器 会 在 标记 阶段 为 每 个 内 存 块 构造 单 向 记忆 集 ， 并 计算 其 中 存活 对 象 总 量 。 
将 记忆 集 的 构造 任务 从 赋值 器 转移 到 标记 阶段 有 两 个 好 处 : 第 一 ， 记 忆 集 本 身 可 以 十 分 精确 
(因为 记忆 集 可 以 仅 包含 在 回收 时 刻 从 编号 较 高 内 存 块 指向 编号 较 低 内 存 块 的 指针 )， 且 不 包含 
任何 重复 记录 ， 因 此 回收 器 可 以 沿 着 内 存 块 编号 从 小 到 大 的 方向 (目的 是 避免 在 记忆 集中 记 
录 双 向 指针 )， 将 一 组 连续 内 存 块 中 的 存活 对 象 迁 移 到 空闲 块 中 ; 第 二 ， 因 为 标记 阶段 已 经 完 
成 了 对 每 个 内 存 块 中 存活 对 象 总 量 的 计算 ， 所 以 回收 器 可 以 准确 评估 出 当前 回收 过 程 能 完成 
多 少 个 内 存 块 中 存活 对 象 的 迁移 ， 例 如 图 10.8 中 的 第 二 次 遍历 过 程 可 以 完成 连续 3 个 内 存 块 
中 存活 对 象 的 迁移 。 回 收 完成 后 ， 回 收 器 会 将 已 完成 迁移 的 内 存 块 释放 (解除 其 内 存 映 射 ) 。 

与 标准 的 半 区 复制 回收 器 相 比 ，Mark-Copy 回收 器 显著 增加 了 可 用 空间 的 比例 ， 同 时 在 空 
间 大 小 相同 的 情况 下 其 回收 频率 也 会 降低 。 该 回收 器 也 可 设计 成 增 量 式 的 ， 即 将 年 老 代 内 存 块 
的 回收 穿插 在 年 轻 代 回收 之 间 。 该 回收 器 同时 也 存在 一 些 缺 点 : 每 次 整 堆 回收 都 需要 两 次 扫 
描 年 老 代 对 象 ， 一 次 用 于 标记 ， 另 一 次 用 于 复制 ; 回收 器 需要 预 留 额 外 的 空间 来 实现 标记 栈 
以 及 记忆 集 ; 每 次 复制 过 程 可 能 都 需要 重新 扫描 线程 栈 以 及 全 局 变量 。 但 不 可 和 否认 的 是 ， 与 
其 他 需要 更 多 保留 空间 的 复制 式 分 代 回 收 器 相 比 ，Mark-Copy 回收 器 在 某 些 场景 下 表现 更 佳 。 

Mark-Copy 回收 器 要 求 各 内 存 块 在 地 址 空间 上 连续 ， 而 MC? 回收 器 [Sachindran 等 ， 
2004] 则 通过 将 内 存 块 编号 的 方式 放宽 了 这 一 限制 ， 这 带 来 几 个 好 处 : 已 完成 复制 的 内 存 块 
不 必 再 通过 解除 内 存 映射 的 方式 释放 ， 进 而 避免 了 在 32 位 环境 下 耗 尽 虚拟 地 址 空间 的 风险 ; 
该 方案 允许 通过 改变 内 存 块 编 号 的 方式 实现 逻辑 上 的 复制 ， 这 对 于 存活 对 象 比 例 较 大 的 内 存 
块 将 十 分 有 用 (此 时 逻辑 复制 所 带 来 的 收益 会 大 于 复制 或 者 整理 ); 对 内 存 块 进行 逻 辑 编号 
的 方式 也 允许 回收 器 在 回收 过 程 中 改变 内 存 块 的 回收 顺序 。 与 Mark-Copy 回收 器 不 同 ，MC” 
回收 器 将 复制 年 老 代 内 存 块 所 需 的 遍历 过 程 分 摊 在 年 轻 代 回收 中 ， 它 同时 也 使 用 Steele 插入 
式 屏 障 对 年 老 代 进行 增 量 标记 (我 们 将 在 第 15 章 讨 论 增 量 标记 )。 借 助 于 增 量 标记 技术 ， 回 
收 器 可 以 在 内 存 耗 尽 之 前 的 某 一 时 刻 开 始 对 年 老 代 的 回收 ， 并 且 可 以 适应 性 地 调整 每 个 增 
量 的 工作 量 ， 进 而 避免 内 存 耗 尽 时 可 能 出 现 的 较 大 停顿 。 与 本 章 所 介绍 的 其 他 回收 器 类 似 ， 
MC ”回收 器 将 富 引 用 对 象 隔离 在 特殊 的 内 存 块 中 ， 同 时 省 去 对 这 些 内 存 块 记忆 集 的 维护 ( 因 
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此 富 引 用 对 象 会 被 当 作 永久 性 对 象 来 对 待 ， 但 回收 器 仍 可 将 其 恢复 为 一 般 对 象 )。 另 外 ， 为 
了 限制 记忆 和 集 的 大 小 ， 回 收 器 还 会 将 较 大 记忆 和 集 的 实现 方式 从 顺序 存储 缓冲 区 转化 为 卡 表 
(我 们 将 在 第 11 章 介 绍 这 些 技术 )， 大 数组 也 通过 卡 表 的 方式 进行 管理 ， 其 实现 方式 是 将 大 
数组 的 卡 表 紧邻 其 末尾 保存 。 通 过 对 多 种 技术 的 精细 化 整合 ，MC 回收 器 最 终 成 为 一 种 空间 
利用 率 高 、 吞 吐 量 大 、 停 顿时 间 较 为 平衡 的 回收 器 。 





c) 第 二 轮 复制 完成 。 注 意 在 这 一 过 程 中 可 用 空间 能 满足 3 个 内 存 块 中 存活 对 象 的 迁移 
图 10.8 Mark-Copy 回收 器 将 年 老 代 划分 为 多 个 内 存 块 。 回 收 器 将 在 标记 阶段 完成 记忆 集 的 构建 ， 其 中 
记录 的 是 跨 内 存 块 的 指针 。 回 收 器 一 次 可 以 完成 多 个 内 存 块 中 存活 对 象 的 复制 ， 并 且 在 复制 完 
成 后 将 其 释放 (解除 其 内 存 映 射 ) 
Sachindran and Moss[2003], doi: 10 .1145/949305.949335 . 
@2003 Association for Computing Machinery, Inc., 经 允许 后 可 转载 


10.4 ”书签 回收 器 


上 一 节 所 述 的 各 种 增 量 整 理 技 术 均 可 以 (最 终 ) 完成 堆 的 整理 ， 其 回收 过 程 不 仅 在 时 间 
开销 方面 低 于 传统 的 标记 一 整理 回收 ， 而 且 空 间 开 销 也 远 低 于 标准 的 半 区 复制 回收 。 但 是 ， 
如 果 堆 空间 过 大 以 致 于 赋值 器 操作 或 者 回收 器 追踪 会 产生 换 页 行为 ， 则 程序 的 性 能 依然 可 能 
受到 严重 影响 。 换 页 的 开销 可 能 会 超过 上 百 万 个 时 钟 周期 ， 因 而 避免 程序 执行 过 程 中 的 缺 页 
异常 也 是 十 分 重要 的 。 书 签 (bookmarking) 垃圾 回收 器 [Hertz 等 ，2005] 不 仅 可 以 缓解 赋值 
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器 执行 过 程 中 的 缺 页 异常 ， 而 且 能 够 避免 回收 过 程 中 的 缺 页 异常 。 

书签 垃圾 回收 器 可 以 通过 操作 系统 的 虚拟 内 存 管理 器 来 引导 页 淘汰 策略 。 如 果 没 有 回收 
器 的 引导 ， 虚 拟 内 存 管 理 器 通常 在 页 淘汰 方面 没有 太 多 的 选择 余地 ， 例 如 ， 对 于 半 区 复制 回 
收 器 与 使 用 最 近 最 少 使 用 淘汰 策略 的 内 存 管 理 器 同时 工作 的 情形 ， 在 回收 时 间 之 外 ， 被 淘汰 
的 页 通常 是 当前 未 使 用 但 很 快 便 会 被 目标 空间 所 用 的 页 ， 因 此 如 果 大 部 分 对 象 都 十 分 短命 ， 
则 很 可 能 最 近 最 少 使 用 的 页 就 是 分 配器 将 要 使 用 的 下 一 个 页 ， 而 这 正 是 最 糟 的 一 种 换 页 情 
形 。 来 源 空 间 通常 不 会 受 换 页 问题 的 影响 ， 不 仅 是 因为 赋值 器 在 下 一 次 回收 过 程 之 前 不 会 访 
问 该 空间 ， 而 且 是 其 中 的 数据 也 无 需 写 回 到 外 存 中 。 

书签 垃圾 回收 器 可 以 在 不 引发 缺 页 异常 的 前 提 下 完成 垃圾 回收 的 追踪 过 程 。 在 追踪 过 程 
中 ， 回 收 器 保守 地 假定 非 驻 留 (non-resident) 页 中 所 有 对 象 都 是 存活 的 ， 但 同时 依然 需要 定 
位 出 所 有 从 该 页 可 达 的 对 象 。 为 了 达到 这 一 目的 ， 回 收 器 会 在 某 一 存活 页 被 换 出 时 对 其 进行 
扫描 ， 找 出 其 中 所 有 的 对 外 引用 并 为 其 目标 对 象 设置 书签 ， 同 时 如 果 该 页 重新 装载 到 内 存 ， 
则 将 其 对 应 的 书签 删除 。 回 收费 可 以 使 用 书签 来 实现 追踪 过 程 的 持续 。 

书签 回收 器 需要 对 虚拟 内 存 管理 器 进行 修改 ， 即 在 页 淘汰 发 生 时 向 应 用 程序 发 送 一 个 信 
号 。 如 果 分 配器 无 法 获取 新 的 空闲 页 ， 则 唤起 垃圾 回收 器 并 重新 从 刚刚 清空 的 页 中 进行 分 
配 。 回 收 器 可 以 通过 某 些 特定 的 系统 调用 来 影响 虚拟 内 存 管理 器 的 行为 ， 例 如 madvise 系统 
调用 以 及 Mapv_poNTNEED 位 。 书 签 回 收 器 会 在 回收 完成 后 尝试 收缩 堆 空 间 以 避免 缺 页 异常 ， 
而 年 轻 分 代 或 者 回收 器 元 数据 所 在 的 页 则 绝 不 会 被 换 出 。 如 果 无 法 找到 一 个 空 页 (并 将 其 换 
出 )， 则 回收 器 会 寻找 一 个 “牺牲 品 ”( 通 常 是 事先 预定 的 页 ) 并 扫描 其 对 外 引用 ， 然 后 在 其 
目标 对 象 的 头 域 中 设置 一 个 特殊 的 标记 位 。Herts 等 人 在 Linux 内 核 中 引入 了 一 个 系统 调用 ， 
以 允许 用 户 进程 显 式 地 将 一 组 页 换 出 。 

如 果 整 个 堆 都 未 装 入 物理 内 存 ， 则 在 整 堆 回 收 开 始 时 回收 器 会 先 扫描 存在 书签 的 对 象 ， 
并 将 其 加 入 到 回收 器 的 工作 列表 中 。 尽 管 这 一 操作 开销 较 大 ， 但 在 堆 空间 较 小 的 情况 下 该 策 
略 通常 会 比 产生 一 次 缺 页 异常 的 开销 要 低 。 回 收 器 偶尔 需要 对 年 老 代 进行 整理 ， 此 时 回收 器 
会 在 标记 阶段 统计 每 个 空间 大 小 分 级 中 存活 对 象 的 数量 ， 并 据 此 计算 完成 整理 所 需 的 最 小 的 
页 集合 。 回 收 器 使 用 Cheney 扫描 来 将 存活 对 象 移动 到 选 定 的 页 上 (除非 对 象 已 经 在 目标 页 
上 )。 为 了 避免 对 非 驻 留 页 中 的 引用 进行 更 新 ， 回 收 器 不 会 移动 有 书签 的 对 象 ， 进 而 规避 由 
此 产生 的 缺 页 异常 。 


10.5 超 引 用 计数 回收 器 


目前 为 止 我 们 已 经 介绍 了 多 种 基于 分 区 的 堆 组 织 方式 ， 每 种 分 区 方式 都 允许 在 堆 的 不 同 
空间 中 使 用 不 同 的 算法 或 者 策略 ， 各 空间 也 可 以 同时 或 者 各 自 进行 回收 。 我 们 可 以 根据 对 象 
的 期 望 寿命 或 者 大 小 进行 分 区 ， 进 而 提升 堆 的 使 用 率 。 在 本 章 的 最 后 ， 我 们 将 介绍 如 何 根据 
对 象 的 修改 频率 来 进行 分 区 。 

大 量 证 据 表 明 ， 在 许多 应 用 程序 中 ， 年 轻 对 象 的 创建 和 死亡 率 都 相当 高 ， 赋 值 器 对 这 些 
对 象 的 修改 也 十 分 频繁 (例如 将 其 初始 化 ) [StefanoviE，1999]。 对 于 此 类 对 象 而 言 ， 复 制式 
回收 是 一 种 十 分 高 效 的 回收 策略 ， 因 为 它 允 许 顺 序 分 配 且 仅 需要 对 存活 对 象 进行 复制 ， 而 对 
象 的 存活 率 却 往往 很 低 。 现 代 应 用 程序 的 堆 空 间 以 及 存活 数据 会 越 来 越 大 ， 且 长 寿 对 象 通常 
具有 较 低 的 死亡 率 和 修改 频率 ， 这 些 因 素 都 会 给 追踪 式 回 收 器 带 来 一 定 的 挑战 : 追踪 的 开销 
正比 于 存活 对 象 的 总 量 ， 而 频繁 对 长 寿 对 象 进行 追踪 通常 会 影响 程序 性 能 。 与 追踪 式 回 收 
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器 相 比 ， 引 用 计数 策略 能 更 好 地 适应 这 一 场景 ， 因 为 其 开销 通常 仅 与 被 修改 对 象 的 总 量 成 正 
比 。Blackburn 和 McKinley [2003] 认为 ， 在 为 年 轻 代 和 年 老 代 选择 各 自 的 回收 策略 时 ， 应 
当 将 分 代 大 小 、 分 代 中 对 象 的 期 望 寿命 以 及 对 象 的 变更 率 这 三 者 结合 起 来 考虑 。 

因此 ， 他 们 所 设计 的 超 引 用 计数 (ulterior reference counting) 回收 器 使 用 复制 式 回收 来 
管理 年 轻 代 ， 同 时 使 用 引用 计数 来 管理 年 老 代 。 年 轻 代 的 空间 大 小 有 限 ， 且 使 用 顺序 分 配 
策略 。 回 收 器 会 将 所 有 在 年 轻 代 回收 中 存活 的 对 象 复制 到 由 分 区 适应 空闲 链表 管理 的 成 熟 空 
间 。 赋 值 器 写 屏障 的 任务 有 二 ,一 是 正确 管理 成 熟 空间 中 对 象 的 引用 计数 ， 二 是 记录 从 成 熟 
空间 指向 年 轻 代 对 象 的 指针 。 赋 值 器 会 将 涉及 栈 槽 或 者 寄存 器 的 引用 计数 操作 延迟 ， 同 时 回 
收 器 会 将 堆 中 对 象 的 引用 计数 操作 合并 。 一 旦 写 屏障 发 现 某 一 未 被 记录 的 对 象 发 生变 更 ， 则 
会 将 其 添加 到 日 志 中 。 日 志 中 所 记录 的 是 对 象 的 地 址 ， 并 且 会 为 其 所 有 位 于 成 熟 空 间 的 子 节 
点 缓冲 一 次 引用 计数 减少 操作 9 。 

在 回收 过 程 中 ,垃圾 回收 器 会 将 年 轻 代 存活 对 象 移 动 到 由 引用 计数 管理 的 成 熟 空 间 中 ， 
并 且 回 收 两 个 空间 中 的 所 有 不 可 达 对 象 ， 其 具体 过 程 如 下 。 回 收 器 首先 将 日 志 中 每 个 子 节点 
的 引用 计数 加 一 ， 并 且 将 其 所 有 位 于 年 轻 代 的 目标 对 象 标记 为 存活 ， 然 后 将 其 添加 到 年 轻 代 
回收 器 的 工作 列表 中 。 当 完成 所 有 年 轻 代 对 象 的 提升 后 ， 回 收 需 会 增加 这 些 对 象 所 有 子 节点 
的 引用 计数 。 与 其 他 延迟 引用 计数 算法 类 似 ， 回 收 过 程 中 直接 从 根 可 达 的 对 象 的 引用 计数 也 
会 临时 性 地 加 一 ， 且 所 有 已 缓冲 的 引用 计数 增加 操作 都 会 先 于 已 缓冲 的 引用 计数 减少 操作 执 
行 。 该 回收 器 使 用 Recycler 算法 [Bacon and Rajan, 2001] 来 处 理 环 状 引 用 ， 但 它 并 不 会 在 
每 次 回收 中 都 对 所 有 存在 引用 计数 减少 操作 的 对 象 执行 试验 删除 ， 这 一 过 程 仅 在 可 用 堆 空 间 
小 于 某 一 用 户 自 定 义 阔 值 时 才 会 触发 。 

图 10.9 展示 了 超 引用 计数 的 抽象 示意 ， 我 们 可 以 将 其 与 第 $ 章 图 5.1 所 示 的 标准 延迟 引 
用 计数 操作 进行 比较 。 





图 10.9 超 引用 计数 原理 图 。 该 算法 将 堆 划分 为 两 个 空间 ， 仅 有 一 个 空间 由 引用 计数 算法 进行 管理 。 从 
图 中 我 们 看 出 ， 哪 些 情况 下 的 指针 加 载 或 写 人 操作 需要 立即 执行 引用 计数 ， 哪 些 需要 延迟 ， 哪 
些 可 以 忽略 

Blackburn and McKinley [2003], doi: 10.1145/949305.949336. 
©2003 Association for Computing Machinery, Inc., 经 许可 后 转载 


10.6 需要 考虑 的 问题 


通过 本 章 的 介绍 我 们 可 以 知道 ， 除 了 对 象 年 龄 之 外 ， 还 有 许多 其 他 因素 可 以 作为 堆 分 区 
的 依据 。 在 将 堆 中 对 象 分 区 之 后 ， 我 们 可 以 使 用 不 同 的 策略 或 者 机 制 来 管理 不 同 的 分 区 或 空 
间 ， 且 可 以 针对 每 个 空间 中 对 象 的 特征 选择 最 合适 的 策略 或 机 制 。 基 于 物理 隔离 的 分 区 策略 


© 第 5 章 中 ，Levanoni 和 Petrank [2001] 所 设计 的 写 屏 障 需 要 记录 对 象 在 被 修改 之 前 的 快照 ， 这 与 此 处 所 描述 


的 方案 有 所 不 同 。 
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有 诸多 优点 ， 包 括 基于 地 址 的 快速 空间 关系 判定 、 更 高 的 局 部 性 、 可 选择 的 碎片 整理 方式 ， 
以 及 更 低 的 内 存 管理 开销 。 

最 普遍 的 一 种 分 区 策略 是 将 大 对 象 与 小 对 象 进行 区 分 管理 ， 即 把 大 对 象 分 配 在 其 专属 
的 、 不 会 移动 的 空间 ， 回 收 器 也 会 避免 对 其 中 的 对 象 进 行 复制 或 者 整理 。 大 对 象 通常 会 被 分 
配 在 其 专属 的 页 序列 中 ， 且 这 些 页 通常 不 会 与 其 他 对 象 共享 。 将 不 包含 指针 的 对 象 (例如 用 
于 表示 图 像 的 位 图 ) 与 大 数组 对 象 进行 区 分 也 是 十 分 必要 的 ， 因 为 回收 器 根本 无 需 对 前 者 进 
行 追 踪 ， 如 果 使 用 额外 的 位 图 进行 标记 ， 则 回收 器 根本 无 需 访 问 真正 的 对 象 ， 进 而 避免 了 洪 
在 的 缺 页 异常 以 及 高 速 缓存 不 命中 问题 。 

基于 分 区 的 策略 同样 还 可 以 实现 堆 的 增 量 回收 ， 即 回收 器 可 以 仅 选 择 堆 中 某 些 子 空间 进 
行 回收 ， 就 像 分 代 回 收 器 可 以 只 处 理 年 轻 代 那 样 。 两 者 所 达到 的 效果 是 相同 的 : 回收 器 在 一 
次 回收 过 程 中 可 以 仅 完 成 少量 的 、 有 限 的 工作 ， 进 而 减少 对 赋值 器 的 影响 。 

实现 堆 分 区 的 一 种 指导 思想 是 按照 对 象 的 拓扑 结构 进行 分 区 ， 也 就 是 按照 赋值 器 访问 对 
象 的 模式 来 进行 分 区 。 该 策略 的 目的 之 一 是 确保 较 大 指针 结构 最 终 会 落 和 同一 个 分 区 中 ， 进 
而 可 以 将 其 整体 回收 ， 如 果 做 不 到 这 一 点 ， 则 仅 对 单个 分 区 进行 回收 将 无 法 释放 跨 分 区 环 状 
垃圾 。 诸 如 火车 回收 器 [Hudson and Moss, 1992] 以 及 基于 对 象 相 关 性 的 回收 器 [Hirzel et 等 ， 
2003] 都 属于 此 类 回收 器 。 火 车 回收 器 一 次 仅 处 理 一 个 较 小 的 空间 ， 并 且 将 其 中 的 存活 对 象 
复制 到 其 引用 来 源 所 在 的 空间 。 基 于 对 象 关联 性 的 回收 器 使 用 指针 分 析 技 术 将 对 象 分 配 到 由 
一 组 分 区 组 成 的 有 向 无 环 图 中 ， 并 可 以 基于 对 象 拓扑 顺序 来 回收 各 分 区 。 系 统 也 可 以 将 对 象 
置 于 能 够 在 常数 时 间 内 完成 回收 的 区 域 中 ， 一 且 回 收 器 发 现 其 中 所 有 对 象 均 不 可 达 ， 便 可 将 
它们 整体 回收 ， 该 策略 可 以 基于 显 式 分 配 的 方式 实现 (如 Java 的 实时 规范 )， 也 可 以 使 用 某 
种 区 域 推断 算法 来 进行 自动 引导 [Tofte 等 ，2004]。 

系统 还 可 以 借助 于 指针 分 析 算 法 将 仅 会 被 一 个 线程 访问 的 对 象 分 配 到 特定 的 空间 中 
[Steensgaard，2000; Jones and King，2005]， 此 时 回收 器 便 可 在 不 停止 其 他 线程 的 前 提 下 独 
立 回收 某 一 线程 所 对 应 的 空间 。Blackburn 和 McKinley [2003] 发 现 ， 赋 值 器 对 年 轻 对 象 的 
修改 通常 会 比 年 老 对 象 更 加 频繁 ， 因 而 他 们 所 设计 的 超 引用 计数 回收 器 使 用 复制 的 策略 来 管 
理 年 轻 对 象 ， 同 时 使 用 引用 计数 来 管理 年 老 对 象 。 复 制式 回收 策略 非常 适用 于 管理 对 象 死亡 
率 很 高 的 空间 ， 同 时 由 于 它 不 会 给 赋值 器 的 修改 操作 带 来 任何 额外 开销 ， 所 以 也 适用 于 对 象 
变更 率 较 高 的 场合 。 引 用 计数 算法 则 适用 于 较 大 的 、 较 稳定 的 空间 的 管理 ， 对 这 些 空间 进行 
追踪 通常 会 付出 较 高 的 代价 。 

男 一 种 常见 的 分 区 策略 是 动态 选择 合适 的 算法 来 处 理 不 同 的 分 区 [Lang and Dupont, 
1987 ; Detlefs 等 ，2004 ; Blackburn and McKinley，2008]， 其 目的 在 于 实现 堆 空间 内 存 碎 
片 的 增 量 整理 ， 即 将 整理 的 开销 分 摊 在 多 个 回收 周期 中 。 每 次 回收 过 程 会 选择 一 个 或 者 数 个 
区 域 执行 碎片 整理 ， 其 中 的 存活 对 象 通常 会 被 复制 到 另 一 个 空间 中 ， 而 其 他 空间 中 的 对 象 则 
会 进行 原 地 标记 。 与 标准 的 半 区 复制 回收 算法 相 比 ， 分 区 之 间 的 复制 可 以 减少 复制 保留 区 所 
需 的 空间 。Mark-Copy 回收 器 [Sachindran and Moss，2003] 将 这 一 思想 发 挥 到 极致 ， 该 回收 
器 针对 内 存 空间 有 限 的 环境 而 设计 ， 其 一 次 回收 过 程 可 以 完成 所 有 年 老 代 对 象 的 复制 ， 但 其 
复制 过 程 依然 以 内 存 块 为 单元 ， 从 而 将 复制 保留 区 的 空间 开销 限制 为 一 个 内 存 块 。MC? 回收 
器 [Sachindran 等 ，2004] 由 Mark-Copy 回收 器 发 展 而 来 ， 并 在 增 量 垃 圾 回收 方面 取得 长 足 
进步 ， 该 回收 器 实现 了 更 高 的 内 存 利用 率 以 及 CPU 利用 率 ， 同 时 可 以 避免 较 长 的 或 者 较为 
集中 的 停顿 时 间 。 
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运行 时 接口 


自动 内 存 管理 系统 的 核心 是 回收 器 、 分 配器 及 其 算法 与 数据 结构 ， 但 是 如 果 应 用 程序 无 
法 使 用 它们 ， 或 者 用 它们 无 法 合理 地 访问 底层 平台 ， 则 一 切 都 只 是 空中 楼 阁 而 已 。 某 些 算法 
对 编程 语言 的 实现 具有 一 定 的 要 求 ， 例 如 要 求 其 提供 一 定 的 信息 ， 或 者 要 求 其 满足 特定 的 不 
变 式 。 本 章 我 们 所 关注 的 正式 回收 器 (和 分 配器 ) 与 整个 系统 中 其 他 模块 之 间 的 接口 ， 包 括 
编程 语言 及 其 编译 器 、 更 低级 别 的 操作 系统 和 代码 库 。 

我 们 将 依次 介绍 : 新 对 象 的 分 配 ， 对 象 、 全 局 变量 以 及 栈 中 指针 的 查找 与 识别 ， 访 问 
或 更 新 对 象 指针 时 所 需 执行 的 动作 〈 即 屏障 )， 赋 值 器 与 回收 器 之 间 的 同步 ， 地 址 空间 管理 ， 
虚拟 内 存 的 使 用 。 


11.1 ”对象 分 配 接口 


从 编程 语言 的 角度 来 看 ， 新 分 配 的 对 象 不 应 当 仅 是 一 块 新 分 配 的 内 存 ， 它 还 应 当初 始 化 
到 编程 语言 及 其 实现 所 需要 的 程度 。 不 同 语言 在 对 象 分 配方 面 的 需求 差异 较 大 。 最 简单 的 一 
种 情况 是 C 语言 ， 它 仅 要 求 分 配器 返回 一 块 新 的 可 用 内 存 ， 内 存单 元 中 很 可 能 是 一 些 随 机 
数据 ， 因 此 其 初始 化 任务 就 完全 成 为 开发 者 的 责任 。 诸 如 Haskell 之 类 的 纯 函 数 式 语言 则 属 
于 最 复杂 的 一 种 情况 ， 它 要 求 开 发 者 必须 在 语言 层面 为 新 对 象 中 的 每 个 域 提供 初始 值 ， 因 而 
应 用 程序 不 可 能 访问 到 任何 未 经 初始 化 的 对 象 。 对 类 型 安全 关注 度 较 高 的 编程 语言 通常 要 求 
对 新 分 配对 象 的 所 有 域 进行 合理 初始 化 ， 域 的 初 值 可 以 由 开发 者 提供 ， 也 可 以 使 用 每 种 类 型 
默认 的 安全 值 ， 还 可 以 将 两 者 结合 。 
我 们 将 对 象 的 分 配 以 及 初始 化 过 程 划 分 为 3 个 阶段 ， 但 并 非 所 有 的 语言 或 者 所 有 情况 下 
都 需要 完成 所 有 阶段 。 
阶段 1 : 分 配 一 块 大 小 合适 的 、 符 合 字 节 对 齐 要 求 的 内 存单 元 ， 这 一 工作 是 由 内 存 管理 
器 的 分 配子 系统 完成 的 。 
阶段 2 : 系统 级 初始 化 (system initialisation)， 即 在 对 象 被 用 户 程序 访问 之 前 ， 其 所 有 
的 域 都 必须 初始 化 到 适当 的 值 。 例 如 在 面向 对 象 语 言 中 ， 设 定 新 分 配对 象 的 方法 分 派 向 量 
(method dispatch vector) 即 是 该 阶段 的 任务 之 一 。 该 阶段 通常 也 需要 在 对 象 头 部 设置 编程 语 
言 或 内 存 管理 器 所 需 的 头 域 ， 对 Java 对 象 而 言 ， 则 包括 哈 希 值 以 及 同步 相关 信息 ， 而 Java 
数组 则 需要 明确 记录 其 长 度 。 
阶段 3 : 次 级 初始 化 ( secondary initialisation)， 即 在 对 象 已 经 “脱离 ”分 配子 空间 ， 并 
且 可 以 潜在 被 程序 的 其 他 部 分 、 线 程 访 问 时 ， 进 一 步 设 置 (或 更 新 ) 其 某 些 域 。 
下 面 是 3 种 不 同 的 语言 中 对 象 分 配 及 其 初始 化 过 程 : 
e C: 所 有 分 配 工作 均 在 阶段 1 完成 ， 编 程 语言 无 需 提 供 任何 形式 的 系统 级 初始 化 或 次 
级 初始 化 ， 所 有 这 些 任务 均 由 开发 者 完成 (或 者 初始 化 失败 )。 需 要 注意 的 是 ， 分 配 
器 仍 需 对 已 分 配 内 存单 元 的 头 部 进行 修改 ， 以 确保 能 够 在 未 来 将 其 释放 ， 但 这 一 头 
部 存在 于 返回 给 调用 者 的 内 存单 元 之 外 。 
e Java: 阶段 1 和 阶段 2 共同 完成 新 对 象 的 方法 分 派 向 量 、 哈 希 值 、 同 步 信 息 的 初始 
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化 ， 同 时 将 所 有 其 他 域 设 置 为 某 一 默认 值 (通常 全 为 零 )。 数 组 的 长 度 域 也 在 这 两 个 
阶段 完成 初始 化 。 字 节 码 new 所 返回 的 对 象 便 处 于 这 一 状态 ， 此 时 尽管 对 象 满 足 类 
型 安全 要 求 ， 但 其 依然 是 完全 “空白 ”的 对 象 。 阶 段 3 在 Java 语言 中 对 应 的 表现 形 
式 是 对 象 构造 函数 或 者 静态 初始 化 程序 中 的 代码 ， 或 者 在 对 象 创建 完成 后 将 某 些 域 
设置 为 非 零 值 的 代码 段 。final 域 的 初始 化 也 是 在 阶段 3 中 完成 的 ， 因 此 一 旦 过 早 地 
将 新 创建 的 对 象 暴 露 给 其 他 线程 ， 同 时 又 要 避免 其 他 线程 感知 到 对 象 域 的 变化 ， 实 
现 起 来 将 十 分 复杂 。 
Haskell : 开发 者 所 提供 的 构造 函数 会 完成 新 创建 对 象 所 有 域 的 填充 ， 同 时 编译 器 和 
内 存 管理 器 可 以 共同 保证 对 象 在 真正 可 达 之 前 能 够 完成 初始 化 ， 因 此 所 有 初始 化 工 
作 均 在 阶段 1 和 阶段 2 中 完成 ， 不 存在 阶段 3 To ML 也 采用 相同 的 方式 来 实现 对 象 
的 初始 化 ， 但 它 需 要 把 可 变 对 象 当 作 特 例 来 处 理 。Lisp 也 使 用 偏 函数 式 的 方法 来 创 
建 对 象 ， 它 同时 也 支持 对 象 的 修改 。 

如 果 编 程 语言 要 求 完整 的 对 象 初始 化 语义 (如 Haskell 和 ML)， 则 对 象 分 配 接口 的 定义 
会 存在 一 些 细小 的 问题 : 为 确保 开发 者 能 够 为 每 种 对 象 的 每 个 域 提 供 初始 值 ， 分 配 接口 可 能 
会 存在 无 限 种 ， 有 具体 取 决 于 对 象 所 包含 域 的 数量 及 其 类 型 。Modula-3 允许 开发 者 提供 函数 
式 的 初始 化 方法 (并非 一 定 要 求 如 此 )， 可 以 将 初始 化 闭 包 (initialising closure) 传递 给 分 配 
子 过 程 ， 后 者 会 分 配 适当 的 空间 并 执行 初始 化 闭 包 来 填充 对 象 的 域 ， 从 而 解决 了 这 一 问题 。 
初始 化 闭 包 中 包含 了 需要 设置 的 初始 值 以 及 将 其 设置 到 对 象 特定 域 的 代码 。Modula-3 使 用 
静态 作用 域 (static scope)， 且 闭 包 本 身 并 不 需要 从 堆 中 进行 分 配 ， 其 本 身 只 是 一 个 静态 链 指 
针 ( 指 向 包含 它 的 环境 (enclosing environment) 中 的 变量 )， 因 此 它 可 以 避免 分 配 过 程 中 的 
无 限 循环 递归 9? 。 但 是 ， 如 果 编 译 器 可 以 自动 生成 初始 化 代码 ， 则 无 论 初始 化 过 程 是 在 分 配 
过 程 内 部 还 是 外 部 便 都 无 关 紧 要 了 。 

Glasgow Haskell 编译 器 采用 另 一 种 不 同 的 策略 来 解决 这 一 问题 : 它 将 阶段 1 和 阶段 2 
中 的 所 有 操作 内 联 ， 并 且 在 内 存 耗 尽 时 唤起 回收 器 。 在 创建 新 对 象 时 ， 分 配器 使 用 顺序 分 配 
来 获取 内 存 ， 其 实现 简单 ， 且 初始 化 过 程 通常 只 需要 使 用 已 经 计算 好 的 值 来 填充 对 象 的 头 部 
以 及 其 他 域 。 这 是 编译 器 与 特定 分 配 算法 (以 及 回收 算法 ) 紧密 关联 的 一 个 案例 。 

函数 式 初始 化 过 程 具有 两 个 显著 的 优点 : 第 一 ， 它 不 仅 可 以 确保 完成 对 象 的 初始 化 ， 而 
且 其 初始 化 代码 对 于 回收 器 而 言 属于 原子 操作 ; 第 二 ， 初 始 化 过 程 中 的 写 操作 可 以 避免 某 些 
写 屏障 的 引入 ， 特 别 是 在 分 代 式 回收 器 中 ， 正 在 进行 初始 化 的 对 象 必然 会 比 其 所 引用 的 其 他 
对 象 都 要 年 轻 ， 因 而 初始 化 过 程 可 以 忽略 分 代 间 写 屏 障 。 但 值得 注意 的 是 ， 这 一 结论 在 Java 
FA) FA ee PRI Pa FF AS LIZ. [Zee and Rinard, 2002]. 

语言 级 别 的 对 象 分 配 需求 最 终 都 会 调用 内 存 分 配子 过 程 ， 某 些 编译 器 会 将 这 一 过 程 内 
联 ， 并 完成 阶段 1 的 全 部 操作 以 及 阶段 2 的 部 分 或 全 部 操作 。 分 配 过 程 需要 满足 的 一 个 关键 
BORE: 阶段 1 和 阶段 2 中 的 所 有 操作 对 于 其 他 线程 以 及 回收 器 都 应 当 是 原子 化 的 ， 只 有 这 
样 才能 确保 系统 的 其 他 模块 不 会 访问 到 未 经 系统 初始 化 的 对 象 。 如 果 我 们 对 分 配器 接口 〈 阶 
Bol) 进行 深入 思考 便 会 发 现 ，3 个 阶段 之 间 的 工作 划分 会 存在 多 种 可 能 的 组 合 方式 。 在 分 
配 过 程 中 需要 考虑 的 参数 如 下 。 

e 待 分 配 空间 大 小 ， 通 常 以 字 节 为 单位 ， 也 可 能 以 字 或 者 其 他 粒度 为 单位 。 当 需要 分 

配 数组 时 ， 分 配 接口 可 以 将 元 素 大 小 以 及 元 素 个 数 作为 独立 的 输入 参数 。 


O 即 分 配 过 程 需 要 创建 一 个 闭 包 ， 而 创建 团 包 又 需要 调用 分 配 过 程 。 一 一 译 者 注 
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© 字 节 对 齐 要求 ， 分 配器 通常 会 以 一 种 默认 的 方式 进行 字 节 对 齐 ， 但 调用 者 也 可 以 要 
求 更 严格 的 字 节 对 齐 方式 。 这 些 要 求 可 能 包括 必须 以 2 的 整数 次 索 对 齐 〈 如 按照 字 、 
双 字 、 四 字 等 进行 对 齐 ),， 或 者 在 此 基础 上 增加 一 个 偏 移 量 (例如 在 四 字 对 齐 的 基础 
上 偏 移 一 个 字 )。 

o 待 分 配对 象 的 类 别 (kind), 例如 ,诸如 Java 等 托管 运行 时 语言 通常 会 将 数组 与 非 数 
组 对 象 进行 区 分 ， 某 些 系统 会 将 不 包含 指针 的 对 象 与 其 他 对 象 进行 区 分 [Boehm and 
Weiser，1988]， 还 有 一 些 系统 会 将 包含 可 执行 代码 的 对 象 与 不 包含 可 执行 代码 的 对 象 
区 分 对 待 。 简 而 言 之 ， 任 何 需 要 分 配器 特殊 对 待 的 需求 都 要 在 分 配 接口 中 得 到 体现 。 

e 待 分 配对 象 的 具体 类 型 (type)， 即 编程 语言 所 关心 的 类 型 。 与 “类 别 ” 不 同 ， 分 配 
器 通常 不 需要 关注 对 象 的 “类 型 ”， 但 却 会 通过 “类 型 ”来 初始 化 对 象 。 将 这 一 信息 
传递 给 分 配子 过 程 不 仅 可 以 简化 阶段 2 的 原子 化 实现 (即将 这 一 任务 转移 到 阶段 1 )， 
而 且 可 以 避免 在 每 个 分 配 位 置 上 引入 额外 的 指令 ， 进 而 减少 代码 体积 。 

分 配 接口 究竟 需要 支持 上 述 各 种 参数 中 的 哪些 ， 这 在 一 定 程度 上 取决 于 其 所 服务 的 编程 
语言 。 我 们 还 可 以 在 分 配 接口 中 传递 一 些 元 余 参 数 以 避免 运行 时 的 额外 计算 。 分 配 接 口 的 
一 种 实现 策略 是 提供 一 个 全 功能 型 分 配 函 数 ， 该 接口 支持 众多 的 参数 并 且 可 以 对 所 有 情况 进 
行 处 理 ， 而 为 了 加 速 分 配 以 及 精简 参数 ,我 们 也 可 以 为 不 同类 别 的 对 象 定制 不 同 的 分 配 接 
Ho B Java 为 例 ， 定 制 化 的 分 配 接口 可 以 分 为 以 下 几 种 : 纯 对 象 ( 非 数 组 ) 的 分 配 、byte/ 
boolen 数组 (元 素 为 1 字 节 ) 的 分 配 、short/char 数组 (元素 为 2 字 节 ) 的 分 配 、int/float 
数组 (元 素 为 4 字 节 ) 的 分 配 、 指 针 数 组 以 及 long/double 数组 (元 素 为 8 字 节 ) 的 分 配 。 
除 此 之 外 还 需 考 虑 系统 内 部 对 象 的 分 配 接口 ， 例 如 表示 类 型 的 对 象 、 方 法 分 派 表 、 方 法 代码 
等 ， 具 体 的 分 配方 式 取决 于 是 否 要 将 其 置 于 可 回收 堆 中 ， 即 使 它们 不 从 托管 堆 中 分 配 ， 系 统 
仍 需 为 其 提供 特殊 接口 ， 以 从 显 式 释放 的 分 配器 中 进行 分 配 。 

阶段 1 完成 后 ， 分 配器 可 以 通过 如 下 几 个 后 置 条 件 ( post-condition) 来 检测 该 阶段 的 执 
行 是 否 成 功 。 

© 已 分 配 内 存单 元 满足 预定 的 大 小 以 及 字 节 对 齐 要 求 ， 但 此 时 该 内 存单 元 还 不 能 被 赋 

值 器 访问 。 

e 已 分 配 内 存单 元 已 完成 清 零 ， 这 可 以 确保 程序 不 会 将 内 存单 元 中 原 有 的 指针 或 者 非 
指针 数据 误 认为 是 有 效 的 引用 。 零 是 非常 好 的 一 个 值 ， 对 于 指针 而 言 ， 零 值 表示 空 
指针 ， 而 对 于 大 多 数 类 型 而 言 ， 零 值 都 是 平常 的 、 合 法 的 值 。 某 些 语言 (如 Java) 需 
要 通过 清 零 或 者 其 他 类 似 的 方式 来 确保 安全 类 型 的 安全 性 。 在 调试 系统 中 ， 将 未 分 
配 的 内 存 设 置 成 特殊 的 非 零 值 十 分 有 和 用， 例如 oxdeadbeet 或 者 oxcafebabe， 其 字面 
意思 就 是 表示 其 当前 所 处 的 状态 。 

oe 内 存单 元 已 被 赋予 调用 者 所 要 求 的 类 型 。 当 然 这 一 过 程 只 有 当 调 用 者 将 类 型 信息 传 

给 分 配器 时 才 需 考虑 。 与 最 小 后 置 条 件 〈 即 该 条 款 中 的 第 一 条 ) 相 比 ， 此 处 的 区 别 在 
于 分 配器 会 填充 对 象 的 头 部 。 

© 确保 对 象 的 完全 类 型 安全 性 。 这 不 仅 涉及 清 零 行为 ， 而 且 还 涉及 填充 对 象 头 部 的 行为 。 
这 一 步 完 成 后 ， 对 象 并 未 达到 完整 初始 化 的 标准 ， 因 为 此 时 对 象 中 的 每 个 域 均 只 是 安 
全 的 、 平 常 的 、 默 认 的 零 值 ， 而 应 用 程序 通常 要 求 将 至 少 一 个 域 初始 化 到 非 默认 的 值 。 

e 确保 对 象 完全 初始 化 。 这 通常 要 求 调用 者 在 分 配 接口 中 传递 所 有 的 初 值 ， 因 而 这 一 
要 求 并 不 普遍 。 一 个 较 好 的 例子 是 Lisp 语言 中 的 cons 函数 ， 该 函数 的 调用 相当 普 
遍 ， 因 而 有 理由 为 其 提供 单独 的 分 配 函 数 ， 以 加 速 并 简化 其 分 配 接口 。 


apma ae -a 


究竟 最 合适 的 后 置 条 件 是 哪 一 个 ? 某 些 后 置 条 件 (如 清 零 ) 取决 于 编程 语言 的 相关 语义 ， 
同样 还 有 一 些 后 置 条 件 取 决 于 其 所 处 环境 的 并 发 程度 ， 以 及 对 象 可 能 会 以 何 种 方式 从 其 诞生 
的 线程 中 “逃逸 ”( 从 而 成 为 其 他 线程 或 者 回收 器 可 达 的 对 象 )。 一 般 来 说 ， 并 发 程度 越 高 、 
逃逸 情况 越 普遍 ， 后 置 条 件 的 要 求 就 越 高 。 

下 面 我 们 来 考虑 分 配器 无 法 立即 满足 分 配 要 求 时 应 当 如 何 处 理 。 在 大 多 数 系统 中 ， 我 们 
希望 在 分 配子 过 程 内 部 调用 垃圾 回收 ， 并 向 调用 者 隐藏 这 一 事实 。 此 时 调用 者 几乎 不 需要 做 
任何 事情 ， 同 时 也 可 以 避免 在 每 个 分 配 位 置 上 引入 重 试 。 然 而 ， 我 们 也 可 以 将 大 多 数 情况 
下 的 快速 路 径 ( 即 分 配 成 功 的 情况 ) 进行 内 联 ， 同 时 将 回收 - 重 试 这 一 函数 放 在 内 联 代码 之 
外 。 如 果 我 们 将 阶段 1 的 代码 内 联 ， 则 阶段 1 和 阶段 2 将 不 存在 明显 的 分 界线 ， 但 整个 代码 
序列 必须 高 效 且 原子 化 地 实现 。 后 续 我 将 介绍 赋值 器 和 回收 器 之 间 的 握手 机 制 ， 其 中 便 包括 
这 一 原子 化 要 求 的 具体 实现 。 在 实现 分 配 过 程 的 原子 化 之 后 ， 我 们 便 可 将 分 配 过 程 看 作 是 仅 
有 赋值 器 参与 的 行为 。 


11.1.1 分 配 过 程 的 加 速 


许多 系统 和 应 用 程序 都 存在 较 高 的 内 存 分 配 率 ， 因 此 尽 可 能 提升 分 配 速度 便 显 得 十 分 重 
要 。 此 处 的 关键 技术 之 一 是 将 一 般 情 况 下 的 代码 ( 即 “ 快 速 路 径 ”) 内 联 ， 同 时 将 较 少 执行 
的 、 处 理 更 复杂 情况 的 “ 慢 速 路 径 ” 作 为 函数 调用 ， 而 具体 如 何 进行 选择 就 需要 在 合适 的 负 
载 下 精心 地 进行 比较 测量 。 

顺序 分 配 显 而 易 见 的 优点 便 是 实现 简单 ， 其 一 般 情 况 下 的 代码 序列 较 短 。 如 果 处 理 需 的 
寄存 器 数量 足够 多 ， 则 系统 甚至 可 以 专门 使 用 一 个 寄存 器 来 保存 阶 跃 指针 (bump pointer), 
同时 再 使 用 一 个 寄存 器 来 保存 堆 地 址 上 限 ， 此 时 典型 的 代码 序列 可 能 会 是 : 将 阶 跃 指针 复制 
给 结果 寄存 器 、 给 阶 路 指针 增加 待 分 配 空间 的 大 小 、 判 断 阶 跃 指针 是 否 超出 堆 地 址 上 限 、 在 
结果 为 真 时 调用 慢 速 路 径 。 需 要 注意 的 是 ， 只 有 当 使 用 线程 本 地 顺序 分 配 时 ， 才 能 将 阶 跃 指 
针 保 存在 寄存 器 中 。 某 些 ML 和 Haskell 进一步 将 一 段 代码 序列 中 的 多 个 分 配 请 求 合 并 成 一 
个 较 大 的 请 求 ， 使 得 只 需要 进行 一 次 地 址 上 限 判 断 与 分 支 。 类 似 的 技术 也 可 以 用 于 其 他 单 入 
口 多 出 口 的 代码 序列 ， 即 一 次 性 分 配 所 有 可 能 执行 路 径 下 最 大 的 内 存 需 求 ， 或 者 仅 在 开始 执 
行 代码 序列 时 使 用 该 值 来 做 基本 的 地 址 上 限 判 断 。 

尽管 顺序 分 配 几乎 必然 会 比 空闲 链表 分 配 要 快 ， 但 如 果 借 助 于 部 分 内 联 以 及 优化 ， 分 区 
适应 分 配 也 可 以 十 分 高 效 。 如 果 我 们 可 以 静态 计算 出 对 应 的 空间 大 小 分 级 ， 并 且 使 用 寄存 器 
来 保存 空闲 链表 数组 的 地 址 ， 此 时 的 分 配 过 程 将 是 : 加 载 对 应 空闲 链表 的 头 指 针 ， 判 断 其 是 
否 为 零 ， 如 果 为 零 则 调用 慢 速 路 径 ， 加 载 下 一 个 指针 ， 将 链表 头 指针 设置 为 下 一 个 指针 。 在 
多 线程 系统 中 ， 最 后 一 步 操 作 可 能 需要 原子 化 ， 即 使 用 compareandswap 操作 并 在 失败 时 进 
行 重 试 。 另 外 也 可 以 为 每 个 线程 提供 专属 的 空闲 链表 序列 ， 并 独立 对 其 进行 回收 。 


11.1.2 BE 


为 确保 安全 ， 某 些 系统 要 求 将 其 空闲 内 存 设 置 为 指定 的 值 ， 该 值 通常 是 零 ， 也 可 能 是 其 
他 一 些 特殊 的 值 (一 般 是 为 了 调试 )。 仅 提供 最 基本 分 配 函 数 的 系统 〈 例 如 C) 通常 都 不 会 如 
此 ,或 者 仅 在 调试 状态 下 才 会 执行 这 一 操作 。 分 配 保 障 较 强 的 系统 (例如 具有 完全 初始 化 能 


O 原则 上 讲 , Java 应 用 程序 可 以 捕获 这 一 异常 ， 然 后 将 某 些 指针 值 空 赋 并 再 次 尝试 内 存 分 配 ， 但 在 实际 应 用 中 ， 
我 们 尚未 见 过 使 用 这 一 策略 的 程序 。 另 外 ，Java 的 软 引 用 可 能 是 解决 这 一 问题 的 更 好 的 方法 。 
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力 的 函数 式 语言 ) 通常 无 需 对 空闲 内 存 清 零 。 尽 管 如 此 ， 将 空闲 内 存 设置 为 特定 的 值 仍 会 有 
助 于 系统 调试 。Java 便 是 需要 将 空闲 内 存 清 零 的 一 个 典型 案例 。 

系统 应 当 在 何 时 执行 清 零 操作 ? 如 何 进行 清 零 ? 我 们 可 以 在 每 次 分 配对 象 时 将 其 清 零 ， 
但 经 验 告诉 我 们 , 一 次 性 对 较 大 空间 进行 清 零 将 更 加 高 效 。 使 用 显 式 的 内 存 写 操作 进行 清 
零 可 能 会 引发 大 量 的 高 速 缓存 不 命中 ， 同 时 在 某 些 硬件 架构 上 执行 大 量 清 零 操作 也 可 能 会 
影响 读 操作 ， 因 为 读 操作 必须 阻塞 到 硬件 写 缓冲 区 中 的 清 零 操作 全 部 执行 完毕 为 止 。 某 些 
ML 的 实现 以 及 Sun 的 HotSpot Java 虚拟 机 会 (在 顺序 分 配 中 ) 对 位 于 阶 跃 指 针 之 前 的 数据 
进行 精确 地 预 取 ， 并 以 此 掩盖 新 分 配 数据 从 内 存 加 载 到 高 速 缓存 时 的 延迟 [Appel，1994 ; 
Gongalves and Appel，1995]， 但 现代 处 理 吉 通常 可 以 探测 到 这 一 访问 模式 并 实现 硬件 预 取 。 
Diwan 等 人 [1994] 发 现 ， 使 用 支持 以 字 为 单位 (per-word basis) 进行 分 配 的 写 分 配 高 速 缓存 
(write-allocate cache) 可 以 获得 最 佳 性 能 ,但 在 实践 中 这 一 结论 并 非 永远 成 立 。 

从 分 配器 的 实现 角度 来 看 ， 将 整个 内 存 块 清 零 的 最 佳 方式 通常 是 调用 运行 时 库 提供 的 清 
FPR, PAN bzero。 这 些 函 数 通常 会 针对 特定 系统 进行 高 度 优 化 ， 甚 至 可 能 使 用 特殊 的 指令 
直接 清 零 高 速 缓存 而 不 将 其 写 和 人 内存， 例如 PowerPC 上 的 acbz 指令 (Data Cache Block Zero), 
开发 者 直接 使 用 这 些 指 令 可 能 较 难 ， 因 为 高 速 缓存 行 的 大 小 是 与 处 理 器 架构 密切 相关 的 一 个 参 
数 。 任 何 情况 下 ， 系 统 在 对 以 2 的 整数 次 寡 对 齐 的 大 内 存 块 清 零 时 通常 会 达到 最 佳 性 能 。 

另 一 种 清 零 技 术 是 使 用 虚拟 内 存 的 请 求 二 进 制 零 页 ( demand-zero page)。 该 技术 通常 更 
适合 程序 启动 时 的 场景 ， 如 果 在 运行 时 使 用 该 技术 ， 则 开发 者 需要 手工 将 待 清 零 页 重新 映射 
(Cremap)， 操 作 系 统 会 对 该 页 设置 陷阱 ， 并 在 应 用 程序 访问 该 页 时 将 其 清 零 。 由 于 相关 操作 的 
开销 相对 较 大 ， 因 而 其 性 能 可 能 还 比 不 上 开发 者 自行 调用 库 函 数 清 零 。 只 有 当 需 要 清 零 的 页 面 
数量 较 多 且 地 址 连续 时 ， 该 技术 的 执行 开销 才 可 能 得 到 有 效 掩盖 ， 其 性 能 优势 才能 得 到 凸显 。 

与 清 零 相关 的 另 一 个 问题 是 何 时 执行 清 零 。 我 们 可 以 在 垃圾 回收 完成 之 后 立即 进行 清 
零 ， 但 其 显而易见 的 缺点 便 是 延长 了 回收 停顿 时 间 ， 同 时 还 可 能 使 大 量 内 存 被 修改 ， 而 这 些 
内 存 很 可 能 在 很 久之 后 才 会 用 到 。 被 清 零 的 数据 很 可 能 需要 从 高 速 缓存 写 回 到 内 存 ， 并 在 分 
配 阶 段 重新 加 载 到 高 速 缓存 。 我 们 可 能 会 根据 直观 经 验 武断 地 认为 ， 对 内 存 的 最 佳 清 零 时 机 
应 当 是 在 其 将 要 被 分 配 出 去 之 前 的 某 一 时 刻 ， 这 样 处 理 絮 便 可 在 分 配 右 访问 这 块 内 存 之 前 将 
其 预 取 到 高 速 缓 存 中 ,但 问题 在 于 ， 即 使 被 清 零 的 内 存 距 离 阶 跃 指 针 不 远 ， 其 依然 很 容易 被 
刷新 到 内 存 中 。 对 于 现代 硬件 处 理 器 而 言 ， 很 难说 Appel 所 描述 的 预 取 技 术 能 有 和 多少 效果 ， 
或 者 其 至 少 需要 通过 很 精细 的 调整 才能 确定 合适 的 预 取 范围 。 如 果 是 在 调试 环境 下 ， 将 空闲 
内 存 清 零 或 者 向 其 中 写 人 特殊 值 的 操作 应 当 在 节点 释放 后 立即 执行 ， 这 样 我 们 便 可 以 在 尽 可 
能 大 的 时 间 范 围 内 捕获 错误 。 


11.2 ”指针 查找 


回收 器 需要 通过 指针 查找 来 确定 对 象 的 可 达 性 。 某 些 回 收 算法 需要 精确 掌握 程序 中 所 
有 指针 的 信息 。 特 别 是 对 于 移动 式 回收 器 而 言 ， 如 果 需 要 将 某 一 对 象 从 地 址 x 移动 到 新 地 址 
x'， 则 必须 将 所 有 指向 x 的 指针 更 新 到 x'。 安 全 回收 某 一 对 象 的 前 提 条 件 是 程序 不 会 再 次 访 
问 该 对 象 ， 但 反之 则 不 成 立 : 将 程序 不 再 使 用 的 对 象 保留 并 不 存在 安全 问题 ， 尽 管 这 可 能 降 
低空 间 利 用 率 〈 不 可 否认， 如 果 程 序 无 法 获取 可 用 堆 内 存 ， 则 可 能 崩溃 )。 因 此 ， 回 收 器 可 
以 保守 地 认为 所 有 引用 均 指 向 了 不 可 移动 的 对 象 ， 但 不 应 武断 地 移动 其 不 能 确定 是 否 可 以 移 
动 的 对 象 。 基 本 的 引用 计数 算法 便 是 保守 式 的 。 使 用 保守 式 回收 的 另 一 个 原因 在 于 回收 融 缺 
乏 精 确 的 指针 信息 ， 因 此 它 可 能 会 将 某 一 非 指针 的 值 当 作 指 针 ， 特 别 是 当 该 值 看 起 来 像 是 引 
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用 了 某 一 对 象 时 。 在 本 节 接 下 来 的 内 容 中 ,我 们 将 先 讨 论 保守 式 指针 查找 的 相关 技术 ， 然 后 
再 介绍 不 同位 置 (如 对 象 内 部 、 栈 、 寄 存 器 等 ) 的 精确 指针 查找 技术 。 


11.2.1 保守 式 指针 查找 


保守 式 指针 查找 的 技术 基础 是 将 每 个 与 指针 大 小 相同 的 已 对 齐 字 节 序列 当 作 可 能 是 指针 
的 值 ， 即 模糊 指针 (ambiguous pointer)。 回 收回 可 以 掌握 组 成 堆 的 内 存 区 域 集 合 ， 甚 至 知道 
这 些 区 域 中 哪些 部 分 已 经 分 配 出 去 ， 因 而 它 可 以 快速 排除 掉 必 然 不 是 指针 的 值 。 为 确保 回收 
过 程 的 性 能 ， 鉴 别 指针 的 工作 必须 十 分 高 效 。 这 一 过 程 通常 包含 两 个 阶段 。 第 一 阶段 ， 回 收 
器 首先 过 滤 掉 未 指向 任何 堆 空间 地 址 的 值 。 如 果 堆 空间 本 身 就 是 一 大 块 连续 内 存 ， 则 这 一 过 
程 可 以 通过 简单 的 地 址 判断 来 实现 ， 另 外 也 可 以 根据 模糊 指针 的 高 位 地 址 计算 出 其 所 对 应 的 
内 存 块 编号 ， 并 通过 一 个 堆 内 存 块 索引 表 进 行 查找 。 在 第 二 阶段 ， 回 收 器 需要 鉴别 出 模糊 指 
针 所 指向 的 地 址 是 否 真正 被 分 配 出 去 ， 这 一 过 程 可 以 借助 一 个 记录 有 已 分 配 内 存 颗 粒 的 位 图 
来 完成 。 例 如 ，Boehm-Demers-Weiser 保守 式 回收 器 [Boehm and Weiser, 1988] 使 用 块 结构 
堆 ， 且 其 每 个 内 存 块 仅 用 于 分 配 一 种 大 小 的 内 存单 元 。 内 存单 元 的 大 小 保存 在 内 存 块 所 关联 
的 元 数据 中 ， 而 其 状态 〈 已 分 配 或 空闲 ) 则 反映 在 位 图 中 。 对 于 一 个 模糊 指针 ， 回 收 需 首先 
使 用 堆 边界 来 对 其 进行 判定 ， 然 后 再 判断 其 所 引用 的 内 存 块 是 否 已 被 分 配 ， 如 果 判 断 成 立 ， 
则 进一步 检测 其 所 指向 的 内 存单 元 是 否 已 被 分 配 。 只 有 最 后 一 步 的 判断 结果 为 真 ， 回 收 器 才 
可 以 对 模糊 指针 的 目标 对 象 进行 标记 。 图 11.1 展示 了 对 模糊 指针 进行 处 理 的 全 部 过 程 ， 其 
每 次 判断 大 约 需要 30 个 RISC 指令 。 

某 些 编程 语言 要 求 指针 所 指向 的 地 址 是 其 引用 对 象 的 第 一 个 字 ， 或 者 在 此 基础 上 增加 一 
些 标准 的 偏 移 量 (例如 数 个 头 部 字 之 后 ， 参 见 图 7.2 )。 借 助 于 这 一 规则 ， 回 收费 便 可 忽略 内 
部 指针 (interior pointer) 而 只 需 关 注 正 规 指针 (canonical pointer) 。 不 论 是 否 需 要 支持 内 部 
指针 ， 保 守 式 回收 器 的 设计 均 比 较 简 单 ，Boehm-Demers-Weiser 保守 式 回 收 占 可 以 通过 配置 
来 选择 是 否 需 要 支持 内 部 指针 2 。 如 果 在 C 语言 中 使 用 保守 式 回收 器 ， 存 在 一 个 细节 问题 需 
要 关注 : C 语言 允许 内 部 指针 指向 某 一 数组 范围 之 外 的 第 一 个 元 素 ， 此 时 保守 式 回 收回 要 么 
必须 维护 两 个 对 象 ， 要 么 必须 为 数组 多 分 配 一 个 字 以 避免 出 现 歧义 。 显 式 内 存 释放 系统 可 以 
在 对 象 之 间 插 和 额外 的 头 部 来 解决 这 一 问题 。 编 译 器 的 优化 可 能 会 “破坏 ”指针 ， 从 而 引发 
回收 器 的 误 判 ， 我 们 将 在 11.2.8 节 详 细 讨 论 这 一 问题 。 

某 些 非 指 针 的 值 可 能 导致 回收 器 错误 地 保留 一 个 实际 上 并 不 可 达 的 对 象 ， 因 而 
Boehm[1993] 设计 了 黑 名 单 (black-listing) 机 制 来 避免 在 堆 中 使 用 被 这 些 非 指针 值 所 “指向 ” 
的 虚拟 地 址 空间 。 特 别 地 ， 如 果 回 收 器 断定 某 个 模糊 指针 指向 了 未 分 配 的 内 存 块 ， 可 以 将 该 
内 存 块 加 入 到 黑 名 单 ， 但 必须 确保 永远 不 在 其 中 进行 分 配 ， 和 否则 后 续 的 追踪 过 程 便 可 能 将 伪 
指针 误 认 为 真正 的 指针 。 回 收 器 同时 还 支持 在 特定 内 存 块 中 仅 分 配 不 包含 指针 的 对 象 (如 位 
图 )， 这 一 区 分 策略 不 仅 可 以 提升 回收 效率 (因为 无 需 扫 描 对 象 的 内 容 )， 同 时 也 可 以 避免 昂 
贵 的 黑 名单 查 询 开销 ( 即 天 然 避 免 了 将 位 图 中 的 数据 当 作 指针 )。 回 收 需 还 可 以 进一步 区 分 
非法 指针 是 否 可 能 是 内 部 指针 ， 并 据 此 改进 黑 名 单 (如果 不 允许 使 用 内 部 指针 ， 则 堆 空 间 中 
不 可 能 存在 内 部 指针 )。 当 人 允许 使 用 内 部 指针 时 ， 黑 名 单 中 所 记录 的 内 存 块 在 任何 情况 下 都 
不 得 使 用 ; 而 当 不 允许 使 用 内 部 指针 时 ， 黑 名 单 所 记录 的 内 存 块 可 以 分 配 不 包含 指针 的 小 对 


”该 回收 器 在 这 两 种 模式 下 均 支 持 内 部 指针 ,但 在 较为 严格 的 一 种 场景 下 ， 回 收 器 要 求 所 有 可 达 对 和 象 都 必须 包 
含 一 个 来 自 于 非 内 部 指针 的 引用 ， 此 时 标记 过 程 会 忽略 内 部 指针 所 产生 的 引用 。 
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象 (这 通常 不 会 造成 太 多 浪费 )。 在 赋值 器 首次 执行 堆 分 配 之 前 ， 回 收 器 先 发 起 一 次 回收 以 
初始 化 黑 名 单 。 分 配器 通常 也 会 避免 使 用 地 址 末尾 包含 太 多 零 的 内 存 块 ， 因 为 栈 中 的 非 指针 
数据 通常 可 能 会 “引用 ”这 些 地 址 。 
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struct hblkhdr 


判断 值 p 是 否 指向 某 个 已 分 配对 象 : 
D HN p 是 否 指向 堆 空间 的 最 小 和 最 大 边界 之 间 的 某 一 地 址 。 
@ 获取 P 的 高 位 地 址 ， 将 其 作为 索引 ， 并 在 第 一 级 表 中 查找 对 应 的 第 二 级 表 。 在 64 位 地 址 空间 下 ， 第 一 级 表 
通过 链 式 哈 希 表 的 方式 组 织 ， 而 不 是 使 用 数组 。 
图 获取 P 的 中 间 几 位 ， 将 其 作为 索引 ， 并 在 第 二 级 表 中 查找 对 应 的 内 存 块 。 
图 判断 “可 能 存在 ”的 对 象 在 内 存 块 中 的 偏 移 是 否 为 hb_size 的 整数 倍 。 
© 在 当前 内 存 块 所 对 应 的 位 图 中 进行 查找 ， 判 断 P 所 指向 的 内 存单 元 是 否 已 被 分 配 。 
图 11.1 保守 式 指针 查找 (展示 了 Boehm-Demers-Weiser 保守 式 回 收 器 所 使 用 的 两 级 查找 树 、 内 存 块头 
部 、 已 分 配 内 存 块 集合 ) 
见 Jones [1996] 一 书 ， 经 许可 后 转载 


11.2.2 ”使 用 带 标签 值 进行 精确 指针 查找 


某 些 系统 (特别 是 基于 动态 类 型 的 系统 ) 支持 为 每 个 值 附带 一 个 特殊 的 标签 (tag), UK 
示 其 类 型 。 标 签 的 基本 实现 策略 有 二 : 位 窃取 (bit stealing) AWIR (big bags of pages). fiz 
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窃取 的 方法 需要 在 每 个 值 中 预 留 出 一 个 或 者 多 个 位 (通常 是 字 的 最 高 或 最 低 几 位 )， 同 时 要 
求 可 能 包含 指针 的 对 象 必须 以 面向 字 ( word-oriented) 的 方式 进行 布局 。 例 如 ， 对 于 一 台 依 
照 字 节 进行 寻 址 且 每 个 字 包 含 四 个 字 节 的 机 器 ， 如 果 我 们 要 求 每 个 对 象 都 必须 依照 字 来 进行 
对 齐 ， 则 指针 的 最 低 两 位 必然 都 是 零 ， 因 而 我 们 可 以 将 这 两 位 用 作 标 签 。 我 们 亦 可 使 用 其 他 
值 来 表示 整数 ， 例 如 可 以 要 求 所 有 用 于 表示 整数 的 值 最 低位 都 必须 是 1， 同 时 以 高 31 位 来 
表示 整数 的 具体 值 (尽管 这 一 方案 确实 减少 了 我 们 可 以 直接 表达 的 整数 范围 )。 为 确保 堆 的 
可 解析 性 (参见 第 7.6 节 )， 我 们 可 以 要 求 堆 中 对 象 的 第 一 表 11 1 一 种 指针 标签 编 码 方案 
个 字 必须 以 二 进 制 10 作为 低 两 位 。 表 11.1 介绍 了 一 种 标 ee 





签 编码 方案 ， 它 与 Smalltalk 中 真正 使 用 的 编码 方案 类 似 。 00 — 

可 能 会 有 读者 对 带 标签 整数 的 处 理 效率 提出 挑战 ， 但 ol HRAM 
对 于 现代 流水 线 处 理 器 而 言 ， 这 几乎 不 会 成 为 问题 ， 一 次 xl 整数 
高 速 缓存 不 命中 所 造成 的 延迟 便 可 轻易 掩盖 掉 这 一 开销 。 表 11.2 SPARC 架构 所 使 用 的 
为 支持 使 用 带 标签 整数 的 动态 类 型 语言 ，SPARC 架构 提 标签 编码 方案 
供 了 专门 的 指令 来 对 带 标签 整数 直接 进行 加 减 操作 ， 且 这 标签 值 编码 类 型 
些 指令 均 可 以 判断 操作 是 否 发 生 溢出 。 某 些 版 本 甚至 还 可 00 整数 
以 针对 操作 溢出 或 者 被 操作 数 低 两 位 不 为 零 的 情况 设置 陷 ak 
Bk. SEF SPARC 架构 我 们 可 以 使 用 表 11.2 所 示 的 标签 纺 -- =e 





码 方案 。 该 方案 要 求 我 们 对 指针 所 代表 的 引用 进行 调整 , 
在 大 多 数 情况 下 ， 这 一 调整 操作 可 以 通过 在 加 载 和 存储 指令 中 引入 一 个 偏 移 量 来 实现 ， 但 对 
数组 的 访问 是 一 个 例外 : 在 访问 数组 中 的 某 个 元 素 时 ， 我 们 需要 根据 数组 索引 号 以 及 这 一 额 
外 的 偏 移 量 来 计算 其 最 终 的 访问 地 址 。 真 实 硬件 架构 对 带 标签 整数 的 支持 进一步 说 明了 位 窃 
取 方 案 的 合理 性 : Motorola MC68000 处 理 器 曾经 使 用 过 这 一 编码 方案 ， 该 处 理 器 包含 一 条 
加 载 指令 ， 该 指令 可 以 通过 一 个 基 址 寄存 器 、 一 个 其 他 寄存 器 外 加 一 个 立即 数 来 构造 有 效 地 
址 ， 因 此 在 MC68000 处 理 器 上 使 用 该 编码 方案 不 存在 太 大 的 额外 开销 。 

页 复方 案 是 将 标签 /类 型 信息 与 对 象 所 在 的 内 存 块 相 关联 ， 因 此 其 关联 关系 通常 是 动态 
的 且 需 要 额外 的 查 表 操 作 。 该 方案 的 不 足 之 处 在 于 标签 /类 型 信息 的 获取 需要 额外 的 内 存 加 
载 操作 ， 但 其 优势 在 于 整数 以 及 其 他 原生 类 型 可 以 完全 使 用 其 原本 所 占据 的 空间 。 该 方案 意 
味 着 系统 中 存在 一 组 内 存 块 专门 用 于 保存 整数 ， 同 时 还 有 一 组 专门 的 内 存 块 用 于 保存 浮 点 数 
等 。 由 于 这 些 纯 值 不 可 能 发 生变 化 8 ， 因 而 在 分 配 新 对 象 时 可 能 需要 进行 哈 希 查找 以 避免 创 
建 已 经 存在 的 对 象 。 这 一 所 谓 哈 希 构 造 (hash consing) 技术 的 历史 相当 悠久 [Ershov, 1958; 
Goto, 1974] (来 自 于 Lisp 语言 中 用 于 创建 新 对 组 (pair) 的 cons 函数 )。 在 使 用 哈 希 构造 技 
术 的 Lisp 实现 中 ， 分 配器 通过 一 张 哈 硕 表 来 维护 所 有 不 可 变 对 组 ， 并 且 会 在 所 需 对 组 已 经 
存在 的 情况 避免 重复 分 配 。 该 方案 可 以 轻易 推广 到 其 他 在 堆 中 分 配 并 管理 不 可 变 对 象 的 场 
景 ， 如 Java 语言 中 Integer 类 的 实例 。 另 外 ， 哈 硕 表 和 不 可 变 对 象 之 间 使 用 弱 引 用 (参见 
12.2 节 ) 进行 关联 可 能 会 是 比较 好 的 一 种 实现 方案 。 
11.2.3 ”对 象 中 的 精确 指针 查找 

如 果 不 使 用 带 标签 值 ， 那 么 要 找 出 对 象 中 所 包含 的 指针 ， 必 然 需 要 知道 对 象 的 类 型 (至 


日 因为 SPARC 架构 要 求 指针 的 低 两 位 为 01。 一 一 译 者 注 
O 所谓 的 “不 可 能 发 生变 化 ”只 是 这 一 具体 方案 的 特性 ， 而 非 具体 语言 的 特性 。 使 用 页 簇 方案 的 开发 者 也 可 以 
通过 另 一 种 方式 来 表示 整数 (或 者 浮 点 数 等 )， 即 使 用 带 标签 指针 指向 真实 的 (不 带 标签 的 ) 值 。 
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少 需要 知道 对 象 中 的 哪些 域 是 指针 域 )。 对 于 面向 对 象 语言 (确切 地 讲 ， 是 使 用 动态 方法 分 
派 (dynamic method dispatch) 机 制 的 语言 )， 指 向 对 象 的 指针 并 不 能 完全 反映 运行 时 对 象 的 
类 型 ， 因 而 我 们 需要 将 对 象 的 类 型 信息 与 对 象 本 身 关 联 ， 其 实现 方式 通常 是 在 对 象 头 部 增加 
一 个 指向 其 类 型 信息 的 指针 域 。 面 向 对 象 语 言 通常 会 为 每 一 种 类 型 生成 方法 分 派 向 量 ， 并 在 
对 象 头 部 增加 一 个 指向 其 方法 分 派 向 量 的 指针 ， 因 此 编程 语言 便 可 将 对 象 的 类 型 信息 保存 在 
方法 分 派 向 量 中 ,或 者 从 方法 分 派 向 量 可 达 的 其 他 位 置 。 如 此 一 来 ， 回 收费 或 者 运行 时 系统 
中 其 他 依赖 对 象 类 型 信息 的 模块 (如 Java 的 反射 机 制 ) 便 可 快速 获取 对 象 的 类 型 信息 。 回 收 
器 需要 的 是 一 个 能 够 反映 对 象 内 部 指针 域 位 置 的 表 ， 该 表 的 实现 方式 有 二 : 一 是 使 用 与 标记 
位 图 相似 的 位 向 量 (bit vector)， 二 是 使 用 一 个 向 量 来 记录 指针 域 在 对 象 中 的 偏 移 量 。Huang 
等 人 [2004] 通过 调整 偏 移 向 量 中 元 素 的 顺序 来 获取 不 同 的 追踪 顺序 ， 复 制式 回收 器 可 以 据 
此 按照 不 同 的 顺序 排列 存活 对 象 ， 进 而 提升 高 速 缓存 性 能 。 这 一 调整 操作 需 在 运行 时 谨慎 执 
行 〈 在 万 物 静 止 式 回收 器 中 )。 

将 包含 指针 的 对 象 与 不 包含 指针 的 对 象 进 行 分 区 (partition )， 在 某 些 方面 来 说 是 比 查 表 
更 加 简单 的 一 种 指针 识别 方法 。 该 策略 在 某 些 语言 和 系统 的 设计 9 中 可 以 直接 使 用 ,但 在 其 
他 语言 中 则 可 能 遇 到 问题 。 例 如 在 ML 中 ， 对 象 可 以 具有 多 态 性 (polymorphic)。 假 设 某 一 
对 象 在 某 些 情 况 下 将 某 个 域 当 作 指针 ， 在 另 一 些 情况 下 又 将 该 域 当 作 非 指针 值 ， 那 么 如 果 系 
统 生成 一 段 适用 于 所 有 多 态 情 况 的 代码 ， 则 根本 无 法 对 两 种 情况 进行 区 分 。 对 于 允许 派生 类 
复 用 基 类 代码 的 面向 对 象 系统 ， 子 类 的 域 将 位 于 基 类 所 有 域 之 后 ， 这 将 必然 导致 指针 域 与 非 
指针 域 的 混合 。 这 一 问题 的 一 种 解决 方案 是 将 两 种 不 同 的 域 沿 着 不 同 的 方向 排列 ， 即 指针 域 
沿 着 偏 移 量 为 负 的 方向 排列 ， 而 非 指针 域 沿 着 偏 移 量 为 正 的 方向 排列 ， 该 方案 也 称 为 双向 对 
象 布 局 (bidirectional object layout)。 在 以 字 节 方式 寻 址 的 机 器 上 ， 对 于 按照 字 来 对 齐 的 对 
象 ， 我 们 可 以 将 对 象 头 部 第 一 个 字 的 最 低位 设置 为 1， 而 按照 字 进 行 对 齐 又 可 以 确保 指针 域 
的 最 低 两 位 必然 全 为 零 (参见 美国 专利 5,900,001 )， 从 而 保证 了 堆 的 可 解析 性 。 在 实际 应 用 
中 ， 扁 平 排列 方式 通常 不 会 成 为 问题 ， 而 且 正 如 Huang 等 人 [2004] 所 描述 的 ， 这 一 方式 实 
际 上 具有 诸多 优势 。 

某 些 系统 会 针对 每 种 类 型 生成 面向 对 象 风格 的 代码 ， 从 而 实现 对 象 的 追踪 、 复 制 等 
[Thomas, 1993 ; Thomas and Jones, 1994 ; Thomas，1995a，b]。 我 们 可 以 将 查 表 方 式 看 
作 是 类 型 解释 器 ， 而 面向 对 象 代码 的 方式 则 可 以 看 作 是 对 应 的 已 编译 代码 。Thomas 在 其 设 
计 中 提出 了 一 种 十 分 有 价值 的 思路 ， 即 当 复制 一 个 闭 包 (closure) 时 ， 可 以 针对 闭 包 的 环境 
(environment) 定制 专门 的 复制 函数 ,该 函数 会 避免 复制 那些 在 特定 函数 中 不 会 使 用 的 环境 
变量 。 该 策略 不 仅 可 以 在 复制 环境 变量 时 节省 空间 ， 更 重要 的 是 可 以 避免 复制 环境 中 已 经 不 
再 使 用 的 部 分 。Cheadle 等 [2004] 也 针对 每 种 闭 包 开发 了 专门 的 回收 方法 。Bartlett [1989a] 
将 这 一 思想 应 用 在 C++ 的 垃圾 回收 中 ， 其 所 设计 的 回收 器 要 求 用 户 针对 每 个 需要 进行 垃圾 
回收 的 类 提供 指针 枚 举 方法 。 

在 托管 语言 中 ， 我 们 可 以 利用 面向 对 象 方法 的 间接 调用 过 程 实现 特殊 的 回收 相关 操作 。 
在 Cheadle 等 [2008] 的 复制 式 回收 器 中 ， 他 们 通过 动态 改变 对 象 的 函数 指针 来 实现 读 屏障 的 
自我 删除 ( self-erase)， 这 与 Cheadle 等 [2000] 在 Glasgow Haskell 编译 器 (GHC) 中 所 使 用 
的 技术 类 似 。 该 系统 使 用 相似 的 技术 实现 了 多 种 版 本 的 栈 屏障 ， 除 此 之 外 还 基于 该 技术 实现 


© Bartlett[1998b] 在 其 Scheme 实现 中 使 用 了 这 一 方案 (其 实现 方案 是 将 Scheme 转译 成 C 代码 )，Cheadle 等 
[2000] 也 在 无 停顿 Haskell 中 使 用 了 这 一 方案 。 
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了 一 个 在 更 新 待 计算 值 (thunk) 时 使 用 的 分 代 间 写 屏 障 。 能 够 更 新 闭 包 环境 的 系统 存在 一 项 
优势 ， 即 它 可 以 对 现 有 对 象 进行 收缩 ， 而 为 确保 堆 可 解析 性 ， 系 统 又 需要 在 收缩 完成 之 后 在 
堆 中 插入 一 个 伪 对 象 。 相 应 的 ， 系 统 也 可 能 需要 扩展 某 一 对 象 ， 此 时 系统 便 会 用 一 个 中 转 对 
象 覆盖 原 有 对 象 ， 同 时 在 中 转 对 象 中 保存 指向 扩展 对 象 的 指针 ， 后 续 的 回收 过 程 也 可 以 将 中 
转 对 象 优化 掉 。 回 收 器 也 可 以 额外 为 赋值 器 执行 一 些 计 算 ， 例 如 对 部 分 参数 已 经 完成 计算 的 
“知名 ”函数 提早 执行 计算 ， 返 回 链表 首 个 元 素 这 一 函数 2 即 为 “知名 ”函数 的 一 个 例子 。 

从 原则 上 讲 ， 静 态 类 型 语言 可 以 省 略 对 象 头 部 并 节省 空间 。Appel[1989] 和 Goldberg[1991] 
描述 了 如 何在 ML 语言 中 实现 这 一 要 求 。 在 他 们 的 解决 方案 中 ， 回 收 器 只 需要 了 解 根 的 类 型 
信息 (因为 回收 的 追踪 过 程 必须 有 一 个 起 点 )。 但 Goldberg 和 Gloger[1992] 后 来 又 发 现 ， 回 
收 器 仍 可 能 需要 获取 全 部 对 象 的 类 型 信息 ， 这 取决 于 程序 所 使 用 的 多 态 类 别 ， 具 体 可 参见 
[Goldberg，1992]。 


11.2.4 全 局 根 中 的 精确 指针 查找 


全 局 根 中 的 精确 指针 查找 相对 来 说 较为 简单 ， 在 对 象 中 查找 指针 的 技术 大 多 都 可 以 在 这 
里 复 用 。 在 全 局 根 这 一 方面 ， 不 同 语言 之 间 的 主要 差别 在 于 全 局 根 集合 是 否 可 以 动态 增长 。 
动态 代码 加 载 是 导致 全 局 根 集 增 长 的 原因 之 一 。 某 些 系统 在 启动 时 便 包 含 一 个 基本 的 对 象 
集合 ， 例 如 ，Smalltalk、 某 些 Lisp 以 及 某 些 Java 系统 在 启动 时 (特别 是 在 交互 式 环境 中 局 
动 时 ) 便 会 包含 一 个 基本 的 系统 “映像 "， 也 称 为 引导 映像 (boot image)， 其 中 包括 众多 的 
KR / 函数 及 其 对 象 实例 。 程 序 在 执行 过 程 中 可 能 会 对 引导 映像 进行 局 部 修改 ， 从 而 导致 引 
导 对 象 引用 了 运行 时 创建 的 新 对 象 ， 此 时 回收 器 就 必须 把 这 些 引 导 对 象 中 的 域 也 当 作 程 序 的 
根 。 在 程序 的 运行 过 程 中 ， 引 导 对 象 也 可 能 成 为 垃圾 ， 因 此 偶尔 对 引导 映像 进行 追踪 并 找 出 
其 中 的 不 可 达 对 象 也 是 一 个 不 错 的 选择 。 是 否 需要 关注 引导 映像 通常 取决 于 是 否 使 用 分 代 式 
回收 策略 ， 此 时 我 们 可 以 将 引导 映像 看 作 是 特殊 的 年 老 代 对 象 。 


11.2.5“ 栈 与 寄存 器 中 的 精确 指针 查找 


在 栈 中 精确 查找 指针 的 一 种 解决 方案 是 将 活动 记录 分 配 在 堆 中 ， 正 如 Appel[1987] 所 
建议 的 那样 ，[Appel and Shao, 1994, 1996] 也 使 用 同样 的 方案 ， 且 Miller 和 Rozas [1994] 
再 次 论证 了 该 方案 的 可 行 性 。 某 些 语言 实现 使 用 与 管理 堆 相 同 的 方式 来 管理 栈 帧 ， 从 而 
达到 了 一 箭 双 雕 的 效果 ， 例 如 Glasgow Haskell 编译 器 [Cheadle 等 ，2000] 以 及 Non-Stop 
Haskell[Cheadle 等 ，2004]。 语 言 的 实现 者 也 可 以 专门 为 回收 器 提供 一 些 关于 栈 上 内 容 的 相 
关 指 引 ， 例 如 Henderson [2002] Æ Mercury 语言 中 便 以 这 种 方式 来 处 理 用 户 生成 的 C 代码 ， 
Baker 等 [2009] 在 为 Java 进行 实时 性 改造 时 也 使 用 了 类 似 的 技术 。 

但 是 ， 出 于 多 方面 的 效率 因素 ， 大 多 数 语言 都 会 对 栈 帧 进行 特殊 处 理 以 获取 最 佳 的 运行 
时 性 能 ， 此 时 回收 器 的 实现 者 便 需 要 考虑 以 下 3 个 问题 : 

1) 如 何在 栈 中 查找 帧 (活动 记录 ); 

2) 如 何在 帧 中 查找 指针 ; 

3 ) 如 何 处 理 以 约定 方式 传递 的 参数 、 返 回 值 ， 以 及 寄存 器 中 值 的 保存 与 恢复 。 

在 大 多 数 系统 中 ， 需 要 在 栈 中 查找 帧 的 不 仅仅 只 有 回收 器 ， 诸 如 异常 处 理 与 恢复 等 其 他 
机 制 也 需要 对 栈 进行 “解析 ”， 更 不 用 说 调试 环境 下 至 关 重 要 的 栈 检查 功能 了 。 同 时 ， 栈 的 
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可 解析 性 也 是 某 些 系统 (如 Smalltalk) 自身 的 要 求 。 从 开发 者 的 角度 来 看 ， 栈 本 身 当 然 是 十 
分 简洁 的 ， 但 在 这 个 简洁 的 外 表 背 后 ， 真 正 的 栈 在 实现 上 却 是 经 过 高 度 优化 的 ， 帧 的 布局 通 
常 也 更 加 原始 。 由 于 栈 的 可 解析 性 通常 十 分 有 用 ， 所 以 帧 的 布局 管理 通常 需要 支持 这 一 点 。 
例如 ， 在 许多 栈 的 设计 实现 中 ， 每 个 帧 中 都 会 有 一 个 域 用 于 记录 指向 上 一 帧 的 动态 链表 指 
针 ， 而 其 他 各 域 均 位 于 帧 中 固定 偏 移 量 的 位 置 (此 处 的 偏 移 量 是 相对 于 帧 指针 或 者 动态 链表 
指针 所 指向 的 地 址 )。 许 多 系统 中 还 会 包含 一 个 从 函数 返回 地 址 到 其 所 在 函数 的 映射 表 ， 在 
非 垃 圾 回收 系统 中 该 表 通 常 只 是 调试 信息 表 的 一 部 分 ， 但 许多 托管 系统 却 需要 在 运行 时 访问 
该 表 ， 因 此 该 表 就 必须 成 为 程序 代码 的 一 部 分 (可 以 在 启动 时 加 载 到 程序 ， 也 可 以 在 程序 启 
动 后 生成 )， 而 不 能 仅 作为 辅助 调试 信息 来 使 用 。 

为 确保 回收 器 可 以 精确 地 找 出 帧 中 的 指针 ， 系 统 可 能 需要 为 每 个 栈 显 式 增 加 栈 映 射 
(stack map) 信息 。 这 一 元 数据 可 以 通过 位 图 来 实现 ， 即 通过 位 图 中 的 位 来 记录 帧 中 的 哪些 
域 包含 指针 。 除 此 之 外 ， 系 统 也 可 以 将 帧 划分 为 指针 区 和 非 指针 区 ， 此 时 元 数据 中 所 记录 的 
便 是 两 个 区 各 自 的 大 小 。 需 要 注意 的 是 ， 当 栈 帧 已 经 存在 但 尚未 完全 初始 化 时 ， 函 数 可 能 
会 需要 插入 额外 的 初始 化 指令 ， 否 则 回收 器 在 这 一 状态 下 进行 栈 扫描 则 可 能 遇 到 问题 。 我 们 
将 在 11.6 节 介 绍 安全 回收 点 以 及 回收 器 与 赋值 器 的 握手 ， 届 时 将 会 给 出 这 一 问题 的 解决 方 
案 。 另 外 ， 我 们 可 能 需要 对 帧 初始 化 代码 进行 回收 方面 的 仔细 分 析 ， 同 时 也 必须 谨慎 地 使 用 
push 指令 (如 果 机 器 支持 的 话 ) 或 者 其 他 特殊 的 压 栈 方 式 。 当 然 ， 如 果 编 译 器 可 以 将 帧 中 的 
给 定 域 固 定 当 作 指针 或 者 非 指 针 来 使 用 ， 则 帧 扫描 的 实现 便 十 分 简单 ， 此 时 所 有 的 函数 只 需 
共享 同一 个 映射 表 即 可 。 

但 是 ， 单一 栈 映射 方案 通常 不 可 行 ， 如 果 使 用 该 方案 ， 则 至 少 两 种 语言 特性 无 法 实现 : 

© 泛 型 /多 态 函 数 ; 

o Java 虚拟 机 的 jsr 指令 。 

我 们 曾经 提 到 ， 多 态 函 数 可 能 会 使 用 同一 段 代 码 来 处 理 指 针 和 非 指针 值 ， 由 于 单 映射 表 
无 法 对 两 种 情况 进行 区 分 ， 所 以 系统 需要 一 些 额 外 的 信息 。 尽 管 多 态 函 数 的 调用 者 可 能 “ 知 
道 ” 具 体 的 调用 类 型 ， 但 调用 者 本 身 也 可 能 是 一 个 多 态 函 数 ， 因 而 调用 者 需要 将 这 一 信息 传 
递 给 更 上 层 的 调用 者 。 因 此 在 最 差 情况 下 ， 可 能 需要 从 main) 函数 开始 逐 级 传递 类 型 信息 。 
这 将 与 从 根 开始 识别 对 象 类 型 的 策略 十 分 类 似 [Appel，1989b ; Goldberg, 1991 ; Goldberg 
and Gloger, 1992]。 

Java 虚拟 机 通过 jsr 指令 来 实现 局 部 调用 (local call)， 该 指令 不 会 创建 新 的 帧 ， 但 它 
所 调用 的 代码 却 能 够 以 调用 者 的 角色 来 访问 当前 帧 中 的 局 部 变量 。Java 通过 该 指令 来 实现 
try-finally 特性 ,在 正常 以 及 异常 逻辑 下 ，tnally 块 中 的 代码 都 会 通过 jsr 指令 来 调用 。 
这 里 的 问题 在 于 ， 当 虚拟 机 调用 jsr 指令 时 ， 某 些 局 部 变量 的 类 型 可 能 会 出 现 歧义 ， 此 时 局 
部 变量 的 类 型 可 能 会 取决 于 通过 jsr 指令 调用 finally 块 的 调用 者 。 对 于 某 一 未 在 tally 块 
中 使 用 但 在 未 来 会 用 到 的 变量 ， 在 正常 调用 逻辑 下 ， 它 可 能 会 包含 指针 ， 而 在 异常 调用 逻辑 
下 ， 它 又 可 能 不 包含 指针 。 有 两 种 策略 可 以 解决 这 一 问题 。 一 种 方案 是 依赖 jsr 指令 的 调用 
者 来 消除 歧义 ， 此 时 栈 映射 中 域 的 栈 槽 类 别 就 不 能 简单 地 划分 为 指针 和 非 指针 两 种 ( 即 可 以 
通过 一 个 位 来 表示 )， 还 需要 包含 “询问 jsr 调用 者 ”这 第 三 种 类 别 。 此 时 我 们 需要 找到 jsr 
调用 的 返回 地 址 ， 为 达到 这 一 目的 ， 程 序 需 要 通过 对 Java 字 节 码 进行 一 定 的 分 析 。 男 一 种 
方案 是 简单 地 将 tally 块 复制 一 份 ， 虽 然 这 可 能 改变 字 节 码 或 者 动态 编译 代码 ， 但 该 方案 
在 现代 系统 中 应 用 得 更 加 广泛 。 尽 管 该 方案 在 最 差 情 况 下 可 能 会 造成 代码 体积 指数 级 别 的 脱 
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胀 ， 但 它 确实 简化 了 系统 中 finally 块 的 设计 。 据 说 有 证 据 表明 ， 为 动态 编译 代码 生成 栈 映 
射 是 某 些 隐 项 错误 的 重要 来 源 ， 因 而 在 这 里 控制 系统 的 复杂 度 可 能 更 加 重要 。 某 些 系统 会 将 
栈 映 射 的 生成 延迟 到 回收 器 真正 需要 它 的 时 候 ， 尽 管 这 样 可 以 节约 正常 执行 逻辑 下 的 时 间 和 
空间 ， 但 可 能 会 增加 回收 停顿 时 间 。 

系统 选用 单一 栈 映射 的 另 一 个 问题 是 : 它 会 进一步 限制 寄存 器 的 分 配方 式 ， 即 每 个 寄存 
器 都 只 能 固定 存储 指针 或 者 非 指针 。 因 此 这 一 因素 便 首先 决定 了 单一 栈 映射 方案 不 适用 于 寄 
存 器 数量 较 少 的 机 器 。 

需要 注意 的 是 ， 不 论 我 们 是 为 每 个 函数 创建 一 个 栈 映射 ， 还 是 为 一 个 函数 的 不 同 部 分 创 
建 不 同 的 栈 映射 ， 编 译 器 都 必须 确保 调用 层次 最 深 的 函数 也 能 获取 栈 槽 的 类 型 信息 。 如 果 我 
们 在 开发 编译 器 之 前 就 能 意识 到 这 一 需求 的 重要 性 ， 则 实现 起 来 并 不 会 特别 困难 ， 但 是 如 果 
要 对 现 有 的 编译 器 进行 修改 ， 则 难度 相当 大 。 

寄存 器 中 的 指针 查找 。 到 目前 为 止 ， 我 们 都 忽略 了 寄存 器 中 的 指针 。 寄 存 器 中 的 指针 查 
找 会 比 栈 中 的 指针 查找 复杂 得 多 ， 这 是 由 以 下 几 个 原因 决定 的 : 

© 我 们 曾经 提 到 ， 对 于 某 个 具体 的 函数 ,编译 器 可 以 固定 地 将 其 栈 帧 中 的 某 个 域 用 作 
指针 域 或 者 非 指针 域 ， 但 这 一 方案 通常 不 能 简单 地 套用 在 寄存 器 上 ， 或 者 存在 较 大 
的 局 限 性 : 该 方案 需要 在 寄存 器 中 划分 出 两 个 特殊 的 子 集 ， 一 个 集合 中 的 寄存 器 只 
能 用 作 指 针 ， 而 另 一 个 只 能 用 作 非 指针 ， 因 此 此 方案 可 能 只 适用 于 寄存 器 数量 较 多 
的 机 器 。 在 大 多 数 系统 中 ， 每 个 函数 可 能 会 对 应 多 个 寄存 器 映射 表 。 
即使 我 们 可 以 确保 所 有 全 局 根 、 堆 中 对 象 、 局 部 变量 都 不 包含 内 部 指针 ( 见 11.2.7 
W) 和 派生 指针 ( 见 11.2.8 节 )， 但 经 过 高 度 优化 的 本 地 代码 序列 仍 有 可 能 导致 寄存 
器 持 有 这 样 的 “ 非 正 规 ” 指 针 。 
函数 调用 约定 (call convention) 要 求 某 些 寄存 器 遵守 调用 者 保存 (caller-save) 协 
议 ， 即 如 果 调 用 者 想 要 在 调用 过 程 完 成 后 继续 使 用 某 一 寄存 器 中 的 值 ， 其 必须 在 发 
起 调用 之 前 将 该 寄存 器 的 值 保 存 下 来 ; 相应 地 ， 还 有 一 些 寄存 器 会 遵守 被 调用 者 保 
# (callee-save) 协议 ， 即 被 调用 者 在 使 用 某 一 寄存 器 之 前 必须 先 将 其 中 的 值 保 存 下 
来 ， 并 确保 在 使 用 完成 后 将 其 恢复 。 对 于 寄存 器 中 的 指针 查找 ， 调 用 者 保存 寄存 器 
( caller-save register) 并 不 存在 太 大 困难 ， 因 为 调用 者 必然 知道 该 寄存 器 所 保存 数据 
的 类 别 ， 但 被 调用 者 保存 寄存 器 中 的 值 究竟 是 何 种 类 别 ， 则 只 有 上 层 调 用 者 〈 如 果 存 
在 的 话 ) 才 会 知道 。 因 此 ， 被 调用 者 无 法 确定 一 个 尚未 保存 的 被 调用 者 寄存 器 是 否 包 
含 指针 ， 即 使 被 调用 者 将 该 寄存 器 的 值 保 存 到 帧 的 某 一 域 中 ， 同 样 无 法 确定 该 域 是 
否 包 含 指针 。 

许多 系统 都 通过 栈 展开 ( stack unwinding) 机 制 来 实现 栈 帧 以 及 调用 链 的 重建 (reconstruct), 
特别 是 对 于 没有 提供 专用 的 “上 一 帧 ”寄存 器 的 系统 。 

下 面 我 们 将 介绍 一 种 寄存 器 指针 查找 策略 ， 该 策略 可 以 解决 被 调用 者 保存 寄存 器 中 的 指 
针 查 找 问 题 。 该 策略 首先 要 求 为 每 个 函数 增加 一 个 元 数据 ， 其 中 记录 的 信息 包括 该 函数 保存 
了 哪些 被 调用 者 保存 寄存 器 ， 以 及 每 个 寄存 器 的 值 保存 在 帧 的 哪个 域 中 。 我 们 假定 系统 所 使 
用 的 是 最 常见 的 一 种 函数 调用 方案 ， 即 函数 一 开始 便 将 其 可 能 用 到 的 被 调用 者 保存 寄存 器 保 
存 到 帧 中 。 如 果 编 译 器 较为 复杂 ， 以 至 于 同一 函数 内 的 不 同 代 码 段 都 可 能 以 不 同 的 方式 使 用 
寄存 器 ， 则 其 需要 为 函数 内 不 同 的 代码 段 分 别 插 人 被 调用 者 保存 寄存 器 的 相关 信息 。 

从 顶层 帧 开始 ， 我 们 重建 寄存 器 时 首先 应 当 恢 复 被 调用 者 保存 寄存 器 ， 并 获取 这 些 寄 存 
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器 在 调用 者 执行 调用 时 的 状态 。 为 确保 栈 回溯 顺利 ,我 们 需要 记录 哪些 寄存 右 得 到 恢复 ， 以 
及 恢复 操作 后 所 获取 到 的 值 。 到 达 调 用 栈 底 部 的 函数 之 后 ， 所 有 的 被 调用 者 保存 寄存 器 均 可 
忽略 〈 因 为 它 不 存在 任何 调用 者 )， 此 时 我 们 便 可 确定 所 有 寄存 器 中 的 指针 ， 回 收 器 可 以 使 
用 该 信息 并 在 必要 时 更 新 其 中 的 值 。 

栈 回溯 过 程 需要 恢复 被 调用 者 保存 寄存 器 。 需 要 注意 的 是 ， 如 果 回 收 器 更 新 了 某 一 指 
针 ， 则 它 同 时 也 需要 更 新 已 保存 的 寄存 器 值 。 一 旦 函数 使 用 了 被 调用 者 寄存 器 ， 我 们 便 需 要 
从 额外 的 表 中 获取 该 寄存 器 原 有 的 值 ， 必 要 时 ， 回 收 器 还 需要 对 该 值 进行 更 新 。 后 续 处 理 调 
用 者 的 过 程 中 ,我 们 应 当 避 免 对 已 经 处 理 过 的 被 调用 者 保存 寄存 器 进行 二 次 处 理 。 在 某 些 回 
收 器 中 ， 对 根 进 行 二 次 处 理 不 会 存在 副作用 【例如 标记 -清扫 回收 器 )， 但 在 复制 式 回 收 器 
中 ， 我 们 会 很 自然 地 认为 所 有 尚未 转发 的 引用 都 位 于 来 源 空间 中 ， 因 此 如 果 回 收 器 两 次 处 理 
相同 的 根 (不 是 两 个 引用 了 同一 对 象 的 根 )， 则 可 能 会 在 目标 空间 中 生成 一 份额 外 的 副本 。 

算法 11.1 详细 描述 了 上 述 处 理 流程 ， 图 11.2 中 展示 了 一 个 具体 的 处 理 实例 。 算 法 11.1 
H, func 是 回收 器 用 于 扫描 帧 和 寄存 器 的 函数 ， 它 可 以 是 算法 2.2 (标记 一 清扫 回收 、 标 记 一 
整理 回收 ) 中 markFromRoots PK% for each 循环 中 的 代码 段 ， 也 可 以 是 算法 4.2 (复制 式 回 
收 ) 中 collect 函数 扫描 根 的 循环 中 的 代码 段 。 


算法 11.1 通过 栈 回溯 来 处 理 被 调用 者 保存 寄存 器 


1 processStack(thread, func): 

2 Regs + getRegisters(thread) /* 线程 当前 的 寄存 器 状态 */ 

3 Done + empty /* 所 有 寄存 器 都 尚未 完成 处 理 / 
4 Top + topFrame(thread) 

5 processFrame(Top, Regs, Done, func) 

6 

7 

8 

9 


setRegisters(thread, Regs) /* 将 修正 完成 的 寄存 器 值 写 回 到 线程 状态 中 */ 


processFrame(Frame, Regs, Done, func): 
IP + getIP(Frame) /* 当前 指令 指针 (IP) */ 
10 Caller + getCallerFrame(Frame) 


R if Caller # null 
1B Restore +- empty /* 保存 在 对 调用 者 处 理 完 成 后 应 当 恢复 的 值 / 


15 /* 将 Regs 更 新 到 调用 者 在 发 起 调用 之 前 的 寄存 器 状态 */ 
16 for each (reg,slot) in calleeSavedRegs(IP) 
1 add(Restore, (reg, Regs[reg])) 

18 Regs[reg] + getSlotContents(Frame, slot) 
9 processFrame(Caller, Regs, Done, func) 


a /* 将 被 调用 者 保存 寄存 器 更 新 后 的 值 重新 保存 到 其 在 帧 内 所 对 应 的 模 中 */ 
for each (reg, slot) in calleeSavedRegs(IP) 
setSlotContents(Frame, slot, Regs[reg]) 


/* Restore 中 恢复 Reg， 并 调整 Done*/ 

for each (reg, value) in Restore 
Regs[reg] + value 
remove(Done, reg) 


/* 处 理 当 前 帧 的 指针 槽 */ 
for each slot in pointerSlots(IP) 
func(getSlotAddress(Frame, slot)) 


/* 处 理 当 前 函数 保存 在 寄存 器 中 的 指针 */ 
for each reg in pointerRegs(IP) 
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% if reg ¢ Done 
3 func(getAddress(Regs[reg])) 
add(Done, reg) 


我 们 首先 来 考虑 图 11.2a 所 示 的 调用 栈 ( 右 侧 带 阴影 的 方 框 )， 其 调用 过 程 如 下 : 

1) 程序 从 main) 函数 开始 执行 ， 初 始 状态 下 寄存 器 rl 的 值 为 155，r2 为 784。 为 确保 
效率 ，main() 函数 的 调用 者 应 当 位 于 整个 垃圾 回收 体系 之 外 ， 因 而 其 所 对 应 的 帧 不 得 引用 任 
何 堆 中 对 象 ， 其 寄存 器 的 值 也 不 能 是 指针 。 类 似 地 ， 我 们 也 无 需 关注 main() 函数 的 返回 地 
Hk oldIP。main() 函数 所 执行 的 操作 依次 是 : 将 rl 保存 到 模 1 中 、 将 变量 2 设置 为 指向 对 象 
p 的 指针 、 将 变量 3 赋值 为 75。 然 后 main) 函数 将 调用 函数 f()， 在 执行 调用 之 前 rl 的 值 为 
p, 12 的 值 为 784， 函 数 返 回 地 址 为 main() + 52。 

2) 函数 fO 首先 保存 返回 地 址 ， 然 后 再 将 r2 RAE TERY 1、 将 rl 保存 在 槽 2、 将 变量 3 
赋值 为 -13、 将 变量 4 赋值 为 指向 对 象 q 的 指针 。 然 后 函数 f() 将 调用 函数 g()， 在 执行 调用 
之 前 rl 的 值 是 指向 r 的 指针 ，r2 的 值 为 17， 返 回 地 址 为 fO + 178。 

3) 函数 g0 保存 返回 地 址 ， 将 r2 保存 在 模 1、 将 变量 2 设置 为 对 象 r 的 引用 、 将 变量 3 
赋值 为 -7、 将 变量 4 设置 为 指向 对 象 s 的 指针 。 

图 11.2a 中 ， 每 个 粗 方 框 代 表 一 个 函数 的 帧 ， 每 个 方 框 之 上 的 寄存 器 值 表示 函数 开始 执 
行 时 寄存 器 的 状态 ， 位 于 方 框 之 下 的 寄存 器 值 表 示 其 发 起 函数 调用 时 寄存 器 值 的 状态 。 这 些 
寄存 器 的 值 都 应 当 在 后 续 的 栈 展开 过 程 中 得 到 恢复 。 

假设 函数 gO 在 执行 过 程 中 触发 了 垃圾 回收 。 

4) 垃圾 回收 过 程 发 生 在 函数 g0 中 的 g0 + 36 位 置 ， 此 时 Frl 的 值 为 指向 r 的 指针 ，r2 
的 值 为 指向 t 的 指针 。 我 们 假定 此 时 指令 指针 CIP) 以 及 各 寄存 器 的 值 都 已 经 保存 在 被 挂 起 
线程 的 某 个 数据 结构 中 ， 或 者 保存 在 垃圾 回收 过 程 的 某 一 帧 中 。 

在 某 一 时 刻 ， 回收 器 会 在 线程 栈 上 调用 processStack 函数 ， 参数 func BIA EArt t 
帧 和 寄存 器 的 函数 。 对 于 复制 式 回 收费 而 言 ，func 即 copy 函数 ， 此 时 由 于 目标 对 象 会 发 生 
移动 ， 因 而 回收 器 需要 更 新 栈 以 及 寄存 器 中 的 引用 。 图 11.2a 左 侧 的 方 框 展示 了 处 理 过 程 中 
变量 Regs 和 Restore 的 变化 ， 回 收 器 将 依照 gO, fO, main) 的 顺序 进行 处 理 。 我 们 对 Regs 
和 Restore 的 快照 在 左 侧 进行 编号 ， 编 号 的 顺序 与 我 们 下 面 所 描述 的 执行 步 又 保持 一 致 。 

5) processstack 函数 将 线程 状态 中 的 当前 寄存 器 值 写 人 Regs 中 ， 并 将 Restore 初始 化 
为 空 。 此 时 函数 执行 到 算法 11.1 的 第 15 行 ， 其 所 处 理 的 帧 为 函数 gO 的 帧 。 

6) 算法 执行 到 第 19 行 ， 处理 的 帧 依然 为 函数 gO 所 对 应 的 帧 。 此 时 我 们 已 经 完成 了 
regs 的 更 新 ， 并 且 已 经 将 函数 gO 在 触发 垃圾 回收 之 前 对 寄存 器 的 修改 保存 在 了 Restore 
中 。 由 于 函数 g0 一 开始 便 将 r2 的 值 保 存在 槽 1， 所 以 我 们 可 以 推断 出 在 函数 f() 调用 函数 
gO 的 时 刻 ，r2 的 值 应 当 为 17。 在 函数 g() 发 起 垃圾 回收 的 时 刻 ，r2 的 值 为 t， 我们 将 这 一 
信息 保存 在 Restore 中 。 在 进一步 对 函数 gO 进行 处 理 之 前 ， 我 们 先 递归 调用 processstack 
函数 对 其 调用 者 进行 处 理 。 图 11.2a 中 ， 我 们 把 calleesavedregs 函数 所 返回 的 对 组 以 及 指 
令 指针 记录 在 函数 g0 所 对 应 帧 的 左 侧 。 

7) 算法 再 次 执行 到 第 19 行 ， 此 时 所 处 理 是 函数 FO 所 对 应 的 帜 ， 我 们 从 槽 2 和 槽 1 中 
分 别 恢复 rl F r2 的 值 。 

8 ) 算法 再 次 执行 到 第 19 行 来 处 理 函 数 main) 的 帧 。 由 于 函数 main()“ 不 存在 ”调用 者 ， 


© 由 于 函数 g0 并 未 修改 寄存 器 rl ， 所 以 无 需 将 其 记录 在 Restore 中 。 一 一 译 者 注 
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所 以 我 们 无 需 恢 复 任何 的 被 调用 者 保存 寄存 器 。 更 加 确切 地 讲 ， 应 该 是 main() 函数 的 调用 
者 位 于 整个 垃圾 回收 体系 之 外 ， 其 任何 寄存 器 都 不 会 包含 与 垃圾 回收 相关 的 指针 。 

完成 函数 main() 在 调用 函数 f() 之 前 的 寄存 器 数据 重建 之 后 ， 我 们 便 可 以 对 main) 函数 
的 帧 以 及 寄存 器 进行 处 理 ， 函 数 fO 和 gO 也 使 用 完全 相同 的 方法 来 处 理 。 接 下 来 我 们 通过 
图 11.2b 来 介绍 每 个 帧 将 会 到 达 的 两 种 状态 ， 一 种 状态 对 应 算法 11.1 的 第 35 行 ， 另 一 种 对 
应 第 38 行 之 后 。 图 11.2b 所 反映 的 是 各 个 帧 在 算法 第 35 行 的 状态 ， 其 中 加 粗 的 值 表示 已 更 
新 的 值 (尽管 该 值 可 能 并 不 需要 更 新 )， 灰 色 表 示 未 更 新 的 值 。 


(rir) rl=p 
(12,17) | | 12=784 
calleeSavedRegs 
(rl). ,< 12,1) 
@ f+178 





a) 从 栈 顶 开始 回潮 
11.2 RHH 
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Restore 


Regs Done © 








pointerSlots: 2 


pointerRegs: r1 
@ main+52 





Restore 
(rl,r) 
(12, 17) 








calleeSavedRegs pointerSlots: 2,4 
(rl,2) , (12,1) 


@ f+178 


pointerRegs: r1 
@ f+178 





Restore ® 
(12, t) 

calleeSavedRegs 
(12,1) 


pointerSlots: 2,4 
pointerRegs: r1,r2 
@ g+36 





Restore GC happens 
IP = g+36 
rl=r 
2=t' 


b) iB EEJ 
K 11.2 (4) 


9) Regs 所 记录 的 是 函数 main) 调用 函数 f0 之 前 的 寄存 器 状态 ， 此 时 集合 Done 依然 为 空 。 

10 ) 函数 func 对 寄存 器 rl 进行 更 新 (因为 rl 属于 main() + 52 处 的 集合 pointerRegs )， 
并 将 其 加 入 集合 pone 中 ， 目 的 是 记录 rl 已 经 更 新 到 其 所 引用 对 象 的 新 地 址 (如 果 存 在 
的 话 )。 

11 ) Regs 所 记录 的 是 函数 fO 调用 函数 g() 之 前 的 寄存 器 状态 。 注 意 ，rl 和 72 的 值 需要 
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重新 保存 到 模 1 和 槽 2 中 ， 同 时 它们 在 Regs 中 对 应 的 值 需要 从 Restore 中 恢复 8 。 

12) PRA func 更 新 rl 并 将 其 添加 到 集合 Done 中 。 

13 ) Regs 所 记录 的 寄存 器 值 是 函数 gO 发 起 垃圾 回收 之 前 的 寄存 器 状态 。 与 第 11 步 类 
似 ， 回 收 器 需要 将 r2 的 值 重 新 保存 到 模 1 中 ， 同 时 其 在 Regs 中 对 应 的 值 需要 从 Restore 中 
恢复 。 由 于 rl 并 未 从 Restore 中 恢复 ， 所 以 rl 依然 存在 于 集合 Done 中 。 

14) 函数 func 将 跳 过 寄存 器 r1 (因为 它 已 经 存在 于 集合 Done H), 但 它 会 更 新 r2 并 将 
其 加 入 集合 Done 中 。 


最 


后 , B152, KÄ processstack 将 Regs 中 寄存 器 的 值 恢复 到 线程 状态 中 。 


算法 11.1 的 变种 。 算 法 11.1 存在 多 种 合理 变种 ， 其 中 有 一 些 值 得 我 们 关注 : 


WFR PRM func 不 会 对 其 参数 进行 修改 ， 则 集合 Done 便 无 存在 的 必要 ， 回 收 器 既 不 需 
要 对 其 进行 更 新 ， 也 不 需要 在 执行 函数 func (第 37 行 ) 之 前 进行 第 36 行 的 条 件 判 
断 。 这 一 简化 策略 可 以 应 用 在 非 移动 式 回收 器 或 者 移动 式 回收 器 的 非 移 动 处 理 过程 
中 。 在 移动 式 回收 器 中 ， 如 果 .iurc 可 以 确保 在 对 相同 根 进行 两 次 处 理 之 后 结果 依然 
正确 ， 则 集合 Done 也 可 以 省 略 。 

算法 11.1 中 ， 函 数 func 是 在 递归 调用 processrrame 之 后 才 执行 的 ， 我 们 也 可 以 将 
算法 末尾 的 两 个 tor 循环 提前 到 第 9 行 之 后 。 将 这 一 修改 与 上 一 个 变种 相 结合 ， 
的 算法 便 仅 需 要 单方 向 遍历 栈 便 可 完成 栈 的 处 理 ， 同 时 新 算法 也 可 以 将 栈 的 遍历 方 
式 从 递归 模式 改 为 迭代 模式 ， 如 算法 11.2 所 示 。 

在 不 支持 被 调用 者 保存 寄存 器 的 系统 中 ， 如 果 某 一 函数 希望 在 执行 函数 调用 之 后 某 
一 寄存 器 中 的 值 依然 可 用 ， 则 该 函数 必须 自己 完成 寄存 器 的 保存 与 恢复 工作 〈 即 调用 
者 保存 )。 调 用 者 可 以 知道 已 保存 的 调用 寄存 器 中 值 的 类 型 ， 因 而 可 以 简单 地 将 其 当 
作 临 时 变量 来 处 理 。 此 时 算法 11.1 可 以 大 幅 简化 成 算法 11.3， 该 算法 对 函数 调用 栈 
的 处 理 也 是 迭代 式 的 。 


算法 11.2 ”适用 于 非 更 新 式 处 理 函 数 的 栈 遍 历 算法 


processStack(thread, func): 
Top + topFrame(thread) 
processFrame(Top, func) 
Regs + getRegisters(thread) /* 获取 线程 当前 的 寄存 器 状态 */ 
for each reg in pointerRegs(IP) /* 在 GC 点 从 寄存 器 开始 追踪 */ 
func(getAddress(Regs[reg])) 


processFrame(Frame, func): 
Done + empty 
loop 
IP + getIP(Frame) /* 当前 指令 指针 */ 


/* 处 理 当前 帧 的 指针 槽 */ 
for each slot in pointerSlots(IP) 
func(getSlotAddress(Frame, slot)) 


/* 处 理 当前 函数 保存 在 寄存 器 中 的 指针 */ 
for each reg in pointerRegs(IP) 
if reg ¢ Done 


算法 第 23 行 。 一 一 译 者 注 
算法 第 27 行 。 一 一 译 者 注 
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20 func(getAddress(Regs[reg])) 
a add(Done, reg) 


Caller + getCallerFrame(Frame) 
if Caller = null 
return 


/* 将 Regs 更 新 到 调用 者 发 起 调用 时 的 寄存 器 状态 */ 

for each (reg,slot) in calleeSavedRegs(IP) 
Regs[reg] + getSlotContents(Frame, slot) 
remove(Done, reg) 


#8 BN RREBB 


e 


Frame + Caller 


8 


算法 11.3 ”不 存在 被 调用 者 保存 寄存 器 时 的 栈 遍 历 


processStack(thread, func): 
Top + topFrame(thread) 


1 

2 

3 processFrame(Top, func) 

4 Regs + getRegisters(thread) /* 线程 未 来 的 寄存 器 的 状态 */ 
5 for each reg in pointerRegs(IP) /* 在 GC 点 从 寄存 器 开始 追踪 */ 
6 func(getAddress(Regs[reg])) 

7 setRegisters(thread，Regs) /* 将 修正 过 的 寄存 器 值 写 回 到 线程 寄存 器 中 */ 
8 

9 processFrame(Frame, func): 

10 repeat 

u IP + getIP(Frame) /* 当前 IP */ 

2 for each slot in pointerSlots(IP) /* bE biii */ 
13 func(getSlotAddress(Frame, slot)) 

14 Frame + getCallerFrame(Frame) 

15 until Frame = null 


栈 映射 压缩 。 经 验 表 明 ， 栈 映射 在 代码 中 会 占据 相当 一 部 分 空间 。Diwan 等 [1992] 


发 现 ， 对 于 VAX 平 台 上 的 Modula-3 程 序 ， 栈 映射 会 占据 16% 的 代码 空间 ; Stichnoth 
等 [1999] 声称， 对 于 x86 平 台 上 的 Java 应 用 程序 ， 栈 映射 会 占据 20% 的 代码 空间 。 
Tarditi[2000] 提出 了 一 种 栈 映 射 压缩 技术 并 将 其 应 用 在 Marmot Java 编译 器 中 ， 结 果 表 
明 ， 栈 映射 的 压缩 率 可 以 达到 4 一 5 : 1， 最终 让 栈 映射 在 代码 所 占 空间 的 比例 平均 下 降 到 
3.6%。 该 策略 是 以 下 面 两 个 观察 经 验 为 基础 的 : 
e 尽管 程序 中 可 能 存在 很 多 需要 使 用 栈 映射 的 回收 点 ( GC-points)， 但 许多 回收 点 的 栈 
映射 都 是 完全 相同 的 ， 因 此 可 以 通过 多 个 回收 点 共享 栈 映 射 的 方式 来 节省 空间 。 这 
一 特性 在 Marmot 系统 中 尤为 明显 ， 因 为 在 该 系统 中 ， 经 过 回收 点 之 后 依然 存活 的 指 
针 数 量 通常 较 少 。Tarditi[2000] 发 现 ， 仅 凭借 这 一 策略 便 可 将 栈 映射 的 空间 降低 一 半 。 
e 如 果 编 译 器 可 以 将 指针 在 帧 内 集中 布局 ， 则 栈 映 射 相同 的 比例 会 更 高 ; 通过 存活 变 
量 分 析 与 染色 ， 编 译 器 可 以 使 生命 周期 不 存在 交集 的 变量 复 用 相同 的 槽 ， 也 可 增加 
栈 映 射 相同 的 比例 。Tarditi[2000] 发 现 对 于 大 型 程序 而 言 这 一 策略 尤为 重要 。 
Tarditi 的 整体 处 理 流 程 如 下 : 
1) 将 返回 地 址 ( 稀 朴 ) 集合 映射 到 (更 小 、 更 紧密 的 ) 回收 点 编号 集合 ， 即 : 如 果 
t[i] 所 对 应 的 栈 映射 与 返回 地 址 ra 相同 ， 则 将 ra 映射 到 回收 点 i。 


© Tarditi 使 用 “调用 点 "(call site) 这 一 术语 ， 而 我 们 使 用 的 是 “回收 点 ” (GC-point)。 
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2) 将 回收 点 编号 映射 到 〈 较 小 的 、 较 紧密 的 ) 栈 映射 编号 集合 。 由 于 许多 回收 点 的 栈 
映射 都 相同 ， 因 而 可 以 达到 节省 空间 的 目的 。 对 于 给 定 的 回收 点 i， 其 所 对 应 的 本 映射 编号 
为 mn = mapnum[i], 

3 ) 使 用 数组 将 栈 映射 编号 映射 到 具体 的 栈 映射 信息 。 对 于 上 一 步 中 给 定 的 mw， 其 所 对 
应 的 栈 映射 信息 为 info = map [mn]。 

在 Tarditi 的 方案 中 ， 栈 映射 信息 是 一 个 32 位 的 字 。 如 果 31 个 位 便 足 以 表达 栈 映射 信 
息 ， 则 该 字 的 最 低位 将 为 零 ; 否则 该 字 的 最 低 将 位 为 1， 而 高 31 位 则 指向 了 变 长 的 、 完 整 
的 栈 映射 信息 。 具 体 的 实现 细节 可 能 需要 根据 不 同 的 目标 平台 (语言 、 编 译 器 、 处 理 器 架构 ) 
进行 调整 ， 其 实现 代码 可 以 参见 作者 的 论文 。 

Tarditi 同时 还 介绍 了 几 种 将 IP (指令 指针 ) 映射 到 回收 点 编号 的 方式 : 

o 为 栈 映射 相同 的 相 邻 回收 点 赋予 相同 的 编号 ，Diwan 等 [1992] 也 使 用 了 这 一 技术 。 
对 于 编号 相同 的 回收 点 ， 该 方案 仅 记录 第 一 个 回收 点 编号 ， 其 余 回收 点 (返回 地 址 大 
于 第 一 个 回收 点 ， 但 小 于 映射 表 中 下 一 个 条 目 中 记录 的 返回 地 址 的 回收 点 ) 都 可 以 看 
作 是 与 第 一 个 回收 点 等 价 。 

使 用 两 级 映射 表 来 组 织 较 大 的 回收 点 地 址 数组 。 该 方案 会 将 代码 空间 划分 为 64KB 的 
块 ， 并 为 每 个 代码 块 建立 独立 的 栈 映 射 表 。 由 于 每 个 代码 块 中 所 有 回收 点 的 高 位 都 
相同 ， 所 以 表 中 的 每 一 项 只 需要 记录 低 16 位 ， 那 么 在 32 位 地 址 空间 中 仅 赁 该 策略 
便 可 节省 一 半 的 栈 映射 表 空 间 。 我 们 同时 还 要 知道 每 个 代码 块 中 第 一 个 回收 点 的 全 
局 编号 。 对 于 给 定 IP， 先 获取 其 在 代码 块 内 部 的 回收 点 编号 ， 然 后 再 将 该 值 与 本 代 
码 块 中 第 一 个 回收 点 的 全 局 编号 相 加 ， 便 可 得 到 其 所 对 应 回收 点 的 全 局 编号 。 

使 用 稀 玻 回收 点 数组 记录 部 分 IP 所 对 应 的 栈 映射 编号 ， 而 其 他 IP 所 对 应 的 回收 点 编 
号 则 通过 插值 (interpolate) 的 方式 得 出 。 该 方案 首先 粗略 选 定 某 一 IP 附近 的 大 字 节 
代码 段 ， 确 定 该 代码 段 的 位 置 、 其 中 所 有 的 回收 点 的 编号 及 其 所 对 应 的 栈 映 射 信息 
编号 。 当 需要 确定 某 一 IP 所 对 应 的 回收 点 编号 时 ， 处 理 过 程 首 先 从 该 代码 段 中 地 址 
最 高 的 卫 位 置 开始 向 前 进行 代码 反 汇 编 ， 每 遇 到 一 个 函数 调用 (或 者 其 他 回收 点 )， 
便 更 新 回收 点 编号 以 及 栈 映射 编号 。 需 要 注意 的 是 ， 处 理 过 程 必须 能 够 检查 出 回收 
点 的 位 置 。Tarditi 发 现 ， 尽 管 这 一 过 程 需 要 使 用 16 个 元 素 缓存 来 减少 相同 返回 地 址 
的 重复 计算 , 但 即使 对 于 x86 平 台 ， 这 一 反 汇 编 过 程 也 不 是 特别 复杂 的 ， 执 行 过 程 
也 不 算 太 慢 。 该 策略 的 压缩 率 最 高 ， 且 反 汇 编 开 销 通常 也 不 大 。 

Stichnot 等 [1999] 提出 了 另 一 种 不 同 的 栈 映射 压缩 方案 ， 该 方案 尝试 为 每 条 指令 创建 对 
应 的 栈 映射 。 与 Tarditi[2000] 所 使 用 的 稀 朴 数组 类 似 ， 该 方案 仅 为 代码 中 某 些 固定 的 引用 点 
(reference point) 记录 完整 的 栈 映 射 信 息 ， 该 回收 点 之 后 的 IP 所 对 应 的 栈 映射 信息 则 通过 对 
引用 点 之 后 的 代码 进行 反 汇 编 得 出 。 在 Stichnoth 等 人 的 方案 中 ， 引 用 点 所 对 应 的 是 真正 的 
栈 映射 信息 而 非 回收 点 编号 。 引 用 点 〈 大 致 ) 开始 于 代码 中 基本 块 的 起 始 位 置 。 如 果 某 块 代 
码 中 最 后 一 个 栈 映射 与 下 一 块 代码 中 的 第 一 个 相同 ， 则 将 两 个 代码 块 合 并 为 更 大 的 块 。 处 理 
过 程 从 每 个 引用 点 开始 ， 对 回收 点 的 指令 长 度 (x86 采用 变 长 指令 集 ) 及 其 所 对 应 栈 映射 的 
偏 移 量 进 行 编码 。 例 如 ， 指 令 可 能 是 在 栈 上 压 人 或 者 弹出 一 个 值 ， 或 者 将 指针 加 载 到 寄存 器 
等 。 他 们 进一步 对 偏 移 量 信息 使 用 Huffman 编码 进行 压缩 。 针 对 某 一 基准 程序 套件 的 测试 结 
果 表 明 ， 栈 映射 所 占用 的 空间 平均 可 以 降低 到 全 部 代码 空间 的 22%。 他 们 声称 ， 即 使 对 于 寄 
存 器 数量 较 多 的 平台 ， 该 策略 也 不 会 表现 得 更 差 ， 因 为 处 理 器 的 寄存 器 数量 越 多 ， 指 令 数量 
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通常 也 会 增多 。 尽 管 他 们 (和 Tarditi[2000] 一 样 ) 使 用 反 汇 编 策略 来 避免 在 大 多 数 情况 下 记录 
指令 长 度 ， 但 需要 记录 的 指令 长 度 仍 会 带 来 明显 的 额外 开销 ， 而 使 用 定 长 指令 集 的 平台 则 不 
存在 这 一 问题 。 该 方案 同时 还 需要 使 用 额外 的 标记 位 来 记录 不 允许 执行 垃圾 回收 的 代码 位 置 ， 
例如 写 屏 障 代 码 序列 中 的 代码 。 在 定 长 指令 集中 ， 每 条 指令 的 长 度 完 全 相同 (例如 都 是 4 字 
$), 但 x86 指令 集 的 平均 长 度 可 能 会 比 前 者 少 一 半 甚 至 更 多 。 对 于 使 用 定 长 指令 集 的 平台 ， 
Stichnot 等 人 的 策略 可 以 将 大 多 数 应 用 程序 的 栈 映射 大 小 控制 在 整个 代码 大 小 的 5% 一 10%。 


11.2.6 ”代码 中 的 精确 指针 查找 


程序 代码 中 可 能 会 内 嵌 堆 中 对 象 的 引用 ， 特 别 是 那些 允许 运行 时 加 载 代码 或 者 动态 生成 
代码 的 托管 运行 时 系统 。 即 使 是 对 于 事先 编译 好 的 代码 ， 其 所 引用 的 静态 / 全 局 数据 仍 有 可 
能 在 程序 启动 时 从 刚刚 完成 初始 化 的 堆 中 分 配 。 代 码 中 的 精确 指针 查找 存在 以 下 几 个 难点 : 
e 从 代码 中 分 辨 出 嵌入 其 中 的 数据 通常 较为 困难 ， 甚 至 不 可 能 。 
e 对 于 “不 合作 ”的 编译 器 所 生成 的 代码 ， 几 乎 不 可 能 将 其 中 的 非 指 针 数 据 与 可 能 指 
向 堆 中 对 象 的 指针 进行 区 分 。 
o 当 指针 被 府 和 人 到 指令 中 时 ， 指 针 本 身 可 能 会 被 割裂 成 为 好 几 小 段 。MIPS 处 理 器 将 32 
位 静态 指针 值 加 载 到 寄存 器 中 通常 需要 使 用 1oad-upper-immediate 指令 ， 该 指令 首 
先 将 一 个 16 位 的 立即 数 加 载 到 32 位 寄存 器 的 高 16 位 并 将 低 16 位 清 零 ， 然 后 再 使 用 
or-immediate 指令 将 另 一 个 16 位 的 立即 数 加 载 到 寄存 器 的 低 16 位 。 其 他 指令 集 也 可 
能 会 出 现 类 似 的 代码 序列 。 此 处 的 指针 值 算是 一 种 特殊 的 派生 指针 ( 见 11.2.8 47). 
e 内 骸 指 针 值 可 能 并 非 直接 指向 其 目标 对 象 ， 具 体 可 以 参见 我 们 对 内 部 指针 IL 11.2.7 
节 ) 以 及 派生 指针 (WL 11.2.8 节 ) 的 讨论 。 
某 些 情况 下 我 们 可 以 通过 代码 反 汇 编 来 找 出 内 艇 指针 ， 但 如 果 每 次 回收 都 需要 反 汇 编 全 
部 代码 并 处 理 其 中 的 根 ， 则 可 能 引入 巨大 的 开销 。 当 然 ， 由 于 程序 不 会 修改 这 些 内 藤 指 针 ， 
因此 回收 器 可 以 缓存 其 位 置 以 提高 效率 。 
更 加 通用 的 解决 方案 是 由 编译 器 生成 一 个 额外 的 表 来 记录 内 内 指针 在 代码 中 的 位 置 。 
某 些 系统 简单 地 禁用 内 艇 指针 ， 从 而 避免 了 这 一 问题 。 使 用 这 一 策略 可 能 存在 的 问题 是 ， 
在 不 同 目标 架构 、 不 同 的 编译 策略 以 及 不 同 的 访问 特征 下 ， 代 码 的 性 能 可 能 会 有 所 不 同 。 
目标 对 象 可 移动 的 情况 。 如 果 内 艇 指针 的 目标 对 象 发 生 移动 ， 则 回收 器 必须 更 新 内 向 
指针 。 更 新 内 嵌 指 针 的 困难 之 一 在 于 ， 出 于 安全 性 或 者 保密 性 原因 ， 程 序 代码 段 可 能 是 只 
读 的 ， 因 此 回收 器 可 能 不 得 不 临时 修改 代码 区 的 保护 策略 (如果 可 能 的 话 )， 但 这 一 操作 可 
能 会 引发 较 大 的 系统 调用 开销 。 另 一 种 策略 则 是 禁止 内 时 指 针 引 用 可 移动 对 象 。 更 新 内 捧 
指针 的 另 一 个 困难 之 处 在 于 ， 对 内 存 中 代码 的 修改 通常 并 不 会 使 代码 在 其 他 指令 高 速 缓存 
(instruction cache) 中 的 副本 失效 或 者 强制 更 新 ， 为 此 可 能 要 求 所 有 处 理 器 将 受 影 响 的 指令 
高 速 缓存 行 失效 。 在 某 些 机 器 中 ， 回 收 器 在 将 指令 高 速 缓存 行 失效 之 后 可 能 还 需要 执行 一 个 
特殊 的 同步 指令 ， 目 的 是 确保 未 来 的 指令 加 载 操 作 发 生 在 失效 操作 之 后 。 另 外 ， 在 将 指令 高 
速 缓存 行 失效 之 前 ， 回 收 器 可 能 还 需要 将 被 修改 的 数据 高 速 缓存 行 强制 刷新 到 内 存 中 (其 中 
所 保存 的 是 回收 器 所 修改 的 代码 )， 并 且 需 要 使 用 同步 操作 来 确保 这 一 操作 执行 完毕 。 此 处 
的 实现 细节 与 具体 的 硬件 架构 相关 。 
代码 可 移动 的 情况 。 一 种 特殊 的 情况 是 回收 器 可 能 会 移动 程序 代码 。 此 时 回收 器 不 仅 要 
考虑 目标 对 象 可 移动 情况 下 的 所 有 问题 ， 更 要 考虑 对 栈 以 及 寄存 器 中 所 保存 的 返回 地 址 的 修 
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正 ， 因 为 回收 器 可 能 已 经 移动 了 返回 地 址 所 在 代码 。 另 外 ， 回 收 器 必须 将 所 有 与 代码 新 地 址 
相关 的 指令 高 速 缓存 行 失效 ， 并 且 小 心地 执行 上 文 列 出 的 所 有 相关 操作 。 更 深层 次 的 问题 在 
于 ， 如 果 连 回收 器 自己 的 代码 都 是 可 移动 的 ， 那 么 处 理 起 来 将 更 加 复杂 。 最 后 ， 在 并 发 回收 
器 中 进行 代码 移动 将 是 一 件 极为 困难 的 任务 ， 此 时 回收 器 要 么 必须 挂 起 所 有 线程 ， 要 么 只 能 
采用 更 加 复杂 的 方式 ， 即 先 确保 新 老 代 码 都 可 以 被 线程 使 用 ， 然 后 在 一 段 时 间 内 将 所 有 线程 
都 迁移 到 新 代码 ， 最 后 在 确保 所 有 线程 都 迁移 完成 的 前 提 下 将 老 代码 所 占用 的 空间 回收 。 


11.2.7 ”内 部 指针 的 处 理 


所 谓 内 部 指针 ， 即 指向 对 象 内 部 某 一 地 址 ， 但 其 所 指向 地 址 并 非 对 象 的 标准 引用 的 指 
针 。 更 加 准确 地 讲 ， 我们 可 以 把 对 象 看 作 是 一 组 与 其 他 对 象 不 重叠 的 内 存 地 址 集合 ， 而 内 部 
指针 所 指向 的 正 是 该 集合 中 的 某 一 地 址 。 回 顾 图 7.2 我 们 可 以 发 现 ， 标 准 的 对 象 可 能 并 不 会 
与 其 任何 一 个 内 部 指针 相等 。 另 外 ， 对 象 真正 占据 的 空间 也 可 能 会 比 开 发 者 可 见 数据 所 需 的 
空间 要 大 。 例 如 ，C 语言 允许 指针 指向 数组 未 尾 之 外 的 数据 ， 但 对 于 数组 而 言 这 依然 是 一 个 
合法 的 内 部 引用 。 

在 某 些 系统 中 ， 语 言 级 别 的 对 象 可 能 是 由 数 个 不 连续 的 内 存 片 段 组 成 (例如 Siebert[1999] )， 
但 在 描述 内 部 指针 (以 及 派生 指针 ) 时 ， 我 们 这 里 的 “对 象 ”仅仅 是 指 位 于 一 块 连续 内 存 之 上 的 
(语言 级 别 ) 对 象 。 

回收 器 在 处 理 内 部 指针 时 遇 到 的 主要 问题 是 判定 其 究竟 指向 了 哪个 对 象 ， 即 如 何 通过 内 
部 指针 的 值 来 反 推 出 其 目标 对 象 的 标准 引用 。 可 行 的 方案 有 以 下 几 种 : 

o 使 用 一 张 表 来 记录 每 个 对 象 的 起 始 地 址 。 系 统 可 以 通过 一 个 数组 来 维护 对 象 的 起 始 
地 址 ， 数 组 可 以 使 用 两 级 映射 的 方式 进行 组 织 ， 即 类 似 于 Tarditi[2000] 记录 代码 中 
回收 点 时 所 使 用 的 策略 (参见 11.2 节 )。 另 一 种 策略 是 使 用 位 图 ， 位 图 中 每 一 位 均 对 
应 堆 中 一 个 内 存 颗粒 ( 即 内 存 分 配 单位 )， 同 时 将 对 象 首 地 址 所 在 内 存 颗粒 对 应 的 位 
设置 为 1。 该 方案 可 能 适用 于 所 有 的 分 配器 以 及 回收 器 。 

如 果 系 统 支持 堆 的 可 解析 性 (参见 7.6 节 )， 则 回收 器 可 以 通过 堆 扫 描 来 确定 内 部 指 
针 所 指向 的 地 址 究竟 落 在 哪个 对 象 内 部 。 如 果 每 次 都 从 堆 的 起 始 地 址 开始 查找 未 免 
开销 过 大 ， 因 此 系统 通常 会 为 堆 中 每 个 k 字 节 的 内 存 块 记录 其 内 部 首 个 (或 者 最 后 一 
个 ) 对 象 的 起 始 地 址 ， 为 了 方便 和 确保 计算 效率 , 通常 是 2 的 整数 次 究 。 回 收费 便 
可 根据 这 一 信息 在 内 部 指针 所 指向 的 内 存 块 中 进行 查找 ， 必 要 情况 下 可 能 需要 从 上 
一 个 内 存 块 开始 查找 。 使 用 额外 的 表 会 引入 空间 开销 ， 而 堆 解 析 又 会 引入 时 间 开 销 ， 
回收 器 需要 在 这 两 者 之 间 进 行 适当 的 取舍 。 更 加 详细 的 讨论 将 在 11.8 节 展 开 (此 处 
用 到 的 技术 即 11.8 节 所 介绍 的 跨越 映射 一 一 译 者 注 )。 

如 果 使 用 页 簇 分 配 策略 ， 则 回收 器 可 以 通过 内 部 指针 所 指向 的 内 存 块 的 元 数据 来 获 
取 对 象 的 大 小 ， 同 时 也 可 计算 出 目标 地 址 在 内 存 块 中 的 偏 移 量 (将 目标 地 址 与 合适 的 
掩 码 进 行 与 操作 ， 获 取 该 地 址 的 低位 )， 根 据 对 象 的 大 小 将 偏 移 量 向 下 圆 整 ， 便 可 得 
到 对 象 的 首 地 址 。 

我 们 假设 对 于 任意 一 个 内 部 指针 ， 回 收 器 都 能 计算 出 其 目标 对 象 的 标准 引用 。 当 某 一 内 
部 指针 的 目标 对 象 发 生 移动 时 (例如 在 复制 式 回 收 器 中 )， 回 收 器 必须 同时 更 新 该 内 部 指针 ， 
并 且 确 保 其 目标 地 址 在 新 对 象 中 的 相对 位 置 与 移动 之 前 完全 一 致 。 另 外 ， 系 统 也 可 能 会 将 对 
象 钉 住 (pin)， 我 们 将 在 11.4 节 详 细 讨论 。 
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如 果 系 统 允 许 使 用 内 部 指针 ， 则 由 此 带 来 的 主要 问题 是 : 对 内 部 指针 的 处 理 需 要 花费 额 
外 的 时 间 和 空间 。 如 果 内 部 指针 数量 相对 较 少 ， 且 可 以 与 正规 指针 (tidy pointer)( 即 指向 对 
象 标准 引用 位 置 的 指针 ) 进行 区 分 ， 则 处 理 内 部 指针 的 时 间 开 销 可 能 不 会 太 大 。 但 是 ， 如 果 
要 彻底 支持 内 部 指针 ， 则 可 能 需要 引入 额外 的 表 (尽管 具体 的 回收 器 通常 会 包含 一 些 必要 的 
表 或 者 元 数据 )， 进 而 增 大 了 系统 的 空间 开销 ， 同 时 维护 该 表 也 会 引入 额外 的 时 间 开 销 。 

代码 中 的 返回 地 址 是 一 种 特殊 的 内 部 指针 ， 尽 管 它们 并 没有 什么 特殊 的 处 理 难度 ， 但 基 
于 多 种 原因 ， 回 收 需 在 查找 某 个 返回 地 址 所 对 应 的 函数 时 ， 所 用 的 表 通 常会 不 同 于 其 他 对 象 。 


11.2.8 派生 指针 的 处 理 


Diwan 等 [1992] 将 派生 指针 定义 为 : 对 一 个 或 者 多 个 指针 进行 算数 运算 所 得 到 的 指针 。 
内 部 指针 是 派生 指针 的 一 个 特例 ， 它 可 以 表示 成 p + i 或 者 p+c 这 种 简单 形式 ， 其 中 也 为 指 
针 , i 为 动态 计算 出 的 整数 偏 移 量 ,，c 为 静态 常量 。 由 于 内 部 指针 所 指向 的 地 址 必然 位 于 对 
Rp 所 覆盖 的 内 存 地 址 中 的 一 个 ， 所 以 其 处 理 起 来 相对 简单 ， 但 派生 指针 的 形式 则 可 以 更 加 
一 般 化 ， 例 如 : 

e upper,(p) 或 者 lower:(p)， 即 指针 p 的 高 位 或 者 低位 。 

e p+c, 但 计算 出 的 地 址 位 于 对 和 象 p 之 外 。 

e p 一 9， 即 两 个 对 象 之 间 的 距离 。 

某 些 情况 下 ,我 们 可 以 根据 派生 指针 来 反 推 正规 指针 ( 即 指向 标准 引用 地 址 的 指针 )， 
例如 派生 指针 p + c 且 c 为 编译 期 确定 的 常量 。 我 们 通常 都 必须 知道 生成 派生 指针 的 基本 表 
达 式 ， 尽 管 该 表达 式 本 身 可 能 也 是 一 个 派生 指针 ， 但 追根 渊源 ， 必 然 可 以 找到 产生 派生 指针 
的 正规 指针 。 

在 非 移 动 式 回收 器 中 ， 回 收 器 可 以 简单 地 将 正规 指针 当 作 根 进 行 处 理 。 但 需要 注意 的 
是 ,在 垃圾 回收 时 刻 ， 即 使 派生 指针 依然 存活 ， 其 目标 对 象 的 正规 指针 仍 有 可 能 被 编译 器 的 
存活 变量 分 析 判 定 为 死亡 ， 因 此 编译 器 必须 为 每 个 派生 指针 保留 至 少 一 个 正规 指针 , 但 p + 
c 这 一 情况 属于 例外 ， 因 为 回收 器 通过 一 个 编译 期 常量 对 派生 指针 进行 调整 ， 便 可 计算 出 其 
所 对 应 的 正规 指针 ， 该 过 程 不 需要 依赖 其 他 运行 时 数据 。 

在 移动 式 回收 器 中 ， 派 生 指 针 的 处 理 则 需要 编译 器 的 进一步 支持 : 为 了 记录 每 个 派生 
指针 是 从 哪个 地 址 计算 得 出 的 ， 以 及 如 何 重 建 派 生 指 针 ， 编 译 器 需要 对 栈 映 射 进 行 扩展 。 
Diwan 等 [1992] 给 出 了 处 理 形 如 Bp 一 3qtE 的 派生 指针 的 通用 解决 方案 ， 其 中 p; 和 9g 是 
正规 指针 或 者 派生 指针 ,EE 是 一 个 与 指针 无 关 的 表达 式 ( 即 使 p; 或 qj 发 生 移 动 ， 该 表达 式 也 
不 会 受到 任何 影响 )。 其 处 理 流程 是 : 先 在 派生 指针 的 基础 上 减 去 p; 然 后 加 上 %， 进 而 计算 
出 E 的 值 ， 然 后 执行 移动 ， 最 后 再 根据 移动 之 后 的 p'; 和 gq '; 以 及 E 计 算出 新 的 派生 指针 值 。 

Diwan 等 [1992] 指出 ， 编 译 器 的 优化 可 能 会 给 派生 指针 的 处 理 带 来 一 些 额外 的 问题 ， 
包括 死亡 基准 变量 (dead base variables)、 多 派生 指针 指向 相同 的 代码 位 置 (导致 回收 器 在 
处 理 某 一 派生 指针 时 需要 涉及 更 多 的 变量 )、 间 接 引 用 (变量 的 值 被 记录 在 引用 链 的 某 个 中 
间 位 置 ) 等 。 为 支持 派生 指针 ， 编 译 器 有 时 需要 减少 对 代码 的 优化 ， 但 其 影响 通常 较 小 。 在 
VAX 平 台 的 Modular-3 程序 中 ， 处 理 派生 指针 所 需 的 表 通 常会 占 到 程序 大 小 的 15%。 


11.3 WER 
基于 赋值 器 性 能 以 及 空间 开销 的 考虑 ， 许 多 系统 都 使 用 直接 指向 对 象 的 指针 来 表示 引 
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用 。 一 种 更 加 通用 的 方案 是 为 每 个 对 象 赋予 一 个 唯一 标识 ， 并 通过 某 种 映射 机 制 来 定位 其 具 
体 数据 的 地 址 。 对 于 对 象 所 占 空间 较 大 且 可 能 较为 持久 ， 但 底层 硬件 地 址 空间 却 相对 较 小 的 
场景 ， 这 一 技术 具有 一 定 的 吸引 力 。 本 节 我 们 关注 的 正 是 堆 如 何 适 应 地 址 空间 。 在 上 述 场景 
H, IA (object table) 是 一 种 十 分 有 用 的 解决 方案 ， 除 此 之 外 ， 对 象 表 在 许多 其 他 系统 
中 同样 十 分 有 用 。 对 象 表 通 常 是 一 个 较为 密集 的 数组 ， 其 中 的 每 个 条 目 引 用 一 个 对 象 。 对 象 
表 可 以 仅 包含 指向 对 象 数据 的 指针 ,也 可 以 包含 其 他 额外 的 状态 信息 。 为 确保 执行 速度 ， 对 
象 的 引用 通常 是 其 在 对 象 表 中 的 直接 索引 ， 或 者 指向 其 在 对 象 表 中 对 应 条 目的 指针 。 如 果 使 
用 直接 索引 ， 则 回收 器 迁移 对 象 表 的 工作 便 十 分 简单 ， 但 系统 在 访问 具体 对 象 时 却 必 须 先 获 
取 对 象 表 的 基 址 ， 然 后 再 执行 偏 移 ， 如 果 系 统 可 以 提供 一 个 专门 的 寄存 器 来 保存 对 象 表 的 基 
址 ， 则 这 一 操作 并 不 需要 额外 的 指令 。 

对 象 表 的 一 个 显著 优点 在 于 其 可 以 简化 堆 的 整理 ， 即 当 需 要 移动 某 一 对 象 时 ， 回 收 器 可 
以 简单 地 移动 对 象 并 更 新 其 在 对 象 表 中 的 对 应 条 目 。 为 简化 这 一 过 程 ， 对 象 内 部 应 当 隐 含 一 
个 自 引用 域 (或 者 指向 其 在 对 象 表 中 对 应 条 目的 指针 )， 据 此 ， 回 收 器 便 可 通过 对 象 的 数据 
快速 找到 其 在 对 象 表 中 的 对 应 条 目 。 在 此 基础 上 ,标记 一 整理 回收 器 可 以 采用 传统 的 方式 完 
成 标记 (需要 通过 对 象 表 间 接 实 现 )， 然 后 简单 地 “ 挤 出 ”垃圾 对 象 ， 从 而 实现 对 象 数 据 的 
滑动 整理 。 回 收 器 可 以 将 对 象 表 中 的 空闲 条 目 以 空闲 链表 的 方式 组 织 。 需 要 注意 的 是 ， 将 对 
象 的 标记 位 置 于 其 在 对 象 表 的 对 应 条 目 中 的 效率 更 高 ， 这 可 以 在 检测 或 者 设置 标记 位 时 节省 
一 次 内 存 访问 操作 。 额 外 的 标记 位 图 也 具有 类 似 的 优点 。 还 可 以 将 对 象 的 其 他 元 数据 置 于 对 
象 表 中 ， 例 如 指向 其 类 型 及 大 小 信息 的 引用 。 

对 象 表 本 身 也 可 以 进行 整理 ， 例 如 使 用 3.1 节 所 描述 的 双 指针 算法 。 也 可 以 在 整理 对 象 
数据 的 同时 整理 对 象 表 ， 此 时 只 需要 进行 一 次 对 象 数据 遍历 便 可 同时 实现 对 象 数据 和 对 象 表 
的 整理 。 

如 果 编 程 语言 允许 使 用 内 部 指针 或 者 派生 指针 ， 则 对 象 表 策略 可 能 会 存在 问题 ， 甚 至 会 
成 为 障碍 。 类 似 地， 对 象 表 也 很 难处 理 从 外 部 代码 指向 堆 中 对 象 的 引用 ， 这 一 问题 我 们 将 在 
11.4 节 详 述 。 如 果 编 程 语言 禁止 内 部 指针 ， 则 不 论 是 否 使 用 对 象 表 , 语言 的 具体 实现 都 不 会 
因此 受到 任何 语义 上 的 影响 ,但 是 有 一 种 语言 特征 或 多 或 少 都 需要 依赖 对 象 表 来 保证 其 实现 
效率 ， 即 Smalltalk 的 become: 原 语 。 该 原 语 的 作用 是 将 两 个 对 象 的 身份 互 换 ， 如 果 使 用 对 
象 表 ， 则 其 实现 起 来 相当 简单 ， 赋 值 器 只 需要 将 它们 在 对 象 表 中 的 对 应 条 目 互 换 即 可 。 如 果 
没有 对 象 表 的 支持 ，become: 操作 就 可 能 需要 对 整个 堆 进 行 扫描 。 但 即使 不 使 用 对 象 表 ， 谨 
慎 地 使 用 become: 操作 也 是 可 以 接受 的 ( Smalltalk 通常 使 用 become: 操作 来 设置 对 象 的 新 版 
本 )， 毕 竟 直 接 引用 的 方式 在 大 多 数 情况 下 都 会 比 对 象 表 更 加 高 效 。 


11.4 来 自 外 部 代码 的 引用 


某 些 语言 或 者 系统 允许 托管 环境 之 外 的 代码 使 用 堆 中 分 配 的 对 象 ， 一 个 典型 的 例子 便 是 
Java 原生 接口 (Java Native Interface)， 它 允许 C、C++ 或 者 其 他 语言 所 开发 的 代码 访问 Java 
堆 中 的 对 象 。 更 加 一 般 化 地 讲 ， 几 乎 每 种 系统 都 需要 支持 输入 /输出 ， 这 一 过 程 几乎 必然 需 
要 在 操作 系统 和 堆 之 间 进 行 一 定 的 数据 交换 。 如 果 系 统 需要 支持 外 部 代码 和 数据 引用 托管 堆 
中 的 对 象 ， 那 么 将 存在 两 个 难点 。 难 点 之 一 在 于 ， 如 果 某 一 对 象 从 外 部 代码 可 达 ， 那 么 回收 
器 如 何 才能 正确 地 将 其 当 作 存活 对 象 ， 并 确保 在 外 部 代码 的 访问 结束 之 前 不 会 将 该 对 象 回 
收 。 我 们 通常 只 需要 在 调用 外 部 代码 期 间 满 足 这 一 要 求 ， 因 而 可 以 在 发 起 外 部 调用 线程 的 栈 
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中 保留 指向 该 对 象 的 存活 引用 。 

但 是 ， 某 些 托管 对 象 也 可 能 会 被 外 部 代码 长 期 使 用 ， 其 可 达 范 围 也 可 能 超出 最 初 发 起 外 
部 调用 的 函数 。 基 于 这 一 原因 ， 回 收 需 通常 会 维护 一 个 已 注册 对 象 表 来 记录 此 类 对 象 。 如 果 
外 部 代码 需要 在 当前 调用 完成 之 后 继续 使 用 某 一 对 象 ， 则 其 必须 对 该 对 象 进行 注册 ， 同 时 当 
外 部 代码 不 再 需要 且 未 来 也 不 会 再 使 用 该 对 象 时 ， 必 须 显 式 将 其 注销 。 回 收 器 可 以 简单 地 将 
已 注册 对 象 表 中 的 引用 当 作 额外 的 根 。 

另 一 个 难点 在 于 外 部 代码 如 何 才能 确定 对 象 的 地 址 ， 当 然 该 问题 只 会 在 移动 式 回收 器 中 
出 现 。 某 些 实现 接口 会 将 具体 对 象 与 外 部 代码 相隔 离 ， 后 者 只 有 借助 于 回收 器 所 提供 的 渠道 
才能 访问 堆 中 对 象 。 此 类 接口 对 移动 式 回收 器 的 支持 较 好 。 回 收 器 通常 会 将 指针 转化 为 句柄 
之 后 再 交 由 外 部 代码 使 用 ， 句 柄 中 会 包含 堆 中 对 象 的 真正 引用 ， 也 可 能 包含 其 他 一 些 托管 数 
据 。 此 处 的 句柄 相当 于 是 已 注册 对 象 表 中 的 条 目 ， 同 时 也 是 回收 的 根 。Java 原生 接口 即 采用 
这 种 方式 实现 外 部 调用 。 需 要 注意 的 是 ， 句 柄 与 对 象 表 中 的 条 目 十 分 类 似 。 

句柄 不 仅 可 以 作为 托管 堆 和 非 托管 世界 之 间 的 一 道 桥梁 ， 而 且 可 以 更 好 地 适应 移动 式 回 
收 器， 但 并 非 所 有 的 外 部 访问 都 可 以 遵从 这 一 访问 协议 ， 特 别 是 操作 系统 调用 。 此 时 回收 器 
就 必须 避免 移动 被 外 部 代码 所 引用 的 对 象 。 为 此 ， 回 收 器 可 能 需要 提供 一 个 钉 住 接口 ， 并 提 
供 箱 住 (pin) 和 和 解 条 (unpin) 操作 ， 当 某 一 对 象 被 钉 住 时 ， 回 收 器 将 不 会 移动 该 对 象 ， 同 时 
也 意味 着 该 对 象 可 达 且 不 会 被 回收 。 

如 果 我 们 在 分 配对 象 时 便 知 道 该 对 象 可 能 需要 钉 住 ， 则 可 以 直接 将 其 分 配 到 非 移动 空间 
中 。 文 件 流 IO 缓冲 区 便 是 以 这 种 方式 进行 分 配 的 。 但 程序 通常 很 难事 先 判断 哪个 对 象 未 来 
需要 钉 住 ， 因 此 某 些 语言 支持 pin 和 unpin 函数 以 便 开发 者 自主 进行 任何 对 象 的 钉 住 与 解 钉 
操作 。 

钉 住 操作 在 非 移动 式 回 收 器 中 不 会 成 为 问题 ， 但 却 会 给 移动 式 回收 器 造成 一 定 不 便 ， 针 
对 这 一 问题 存在 多 种 解决 方案 ， 每 种 方案 各 有 优 劣 。 

e 延迟 回收 ， 或 者 至 少 对 包含 被 钉 住 对 象 的 区 域 延 迟 回收 。 该 方案 实现 简单 ， 但 却 有 

可 能 在 解 钉 之 前 耗 尽 内 存 。 

e 如 果 应 用 程序 需要 钉 住 某 一 对 象 ， 且 对 象 当前 位 于 可 移动 区 域 中 ， 则 我 们 可 以 立即 
回收 该 对 象 所 在 的 区 域 (以 及 其 他 必须 同时 回收 的 区 域 ) 并 将 其 移动 到 非 移动 区 域 
中 。 该 策略 适用 于 钉 住 操 作 不 频繁 的 场景 ， 同 时 也 适用 于 将 新 生 代 存活 对 象 提升 到 
非 移动 式 成 熟 空间 的 回收 器 〈 例 如 分 代 回 收 器 )。 

o 对 回收 器 进行 扩展 以 便 在 回收 时 不 移动 被 钉 住 的 对 象 ， 但 这 会 增加 回收 器 的 复杂 度 
并 可 能 引入 新 的 效率 问题 。 

我 们 下 面 将 以 基本 的 非 分 代 复 制式 回收 器 为 例 来 考虑 如 何 对 移动 式 回收 器 进行 扩展 ， 从 
而 支持 钉 住 对 象 。 为 达到 这 一 目的 ， 回 收 器 首先 要 能 将 已 钉 住 对 象 与 未 钉 住 对 象 区 分 。 回 
收 融 依然 可 以 复制 并 转发 未 钉 住 对 象 ， 但 对 于 被 钉 住 对 象 ， 回 收 器 只 能 追踪 并 更 新 其 中 指 
问 被 移动 对 象 的 指针 ， 却 不 能 移动 该 对 象 。 回 收 器 同时 还 必须 记录 其 所 发 现 的 已 钉 住 的 对 
象 ， 当 完成 所 有 存活 对 象 的 复制 之 后 ， 回 收 器 不 能 简单 地 释放 整个 来 源 空 间 ， 而 是 只 能 释放 
已 钉 住 对 象 之 间 的 空隙 。 此 时 回收 所 获得 的 不 再 是 一 块 单独 的 、 连 续 的 空闲 内 存 ， 而 可 能 是 
数 个 较 小 的 、 不 连续 的 空间 集合 ， 分 配器 可 以 将 每 段 空间 当 作 单独 的 顺序 分 配 缓冲 区 来 使 
用 。 已 钉 住 对 象 不 可 避免 地 会 造成 内 存 碎 片 ， 但 在 未 来 的 回收 过 程 中 ， 一旦 被 钉 住 的 对 象 得 
到 解 箱 ， 由 此 造成 的 碎片 便 可 消除 。 正 如 我 们 在 10.3 节 看 到 的 ， 某 些 主体 非 移动 式 回收 器 
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也 会 采用 类 似 的 方案 ， 即 在 存活 对 象 间隙 进行 顺序 分 配 [Dimpsey “F, 2000 ; Blackburn and 
McKinley，2008]。 

钉 住 对 象 给 移动 式 回收 器 引入 的 另 一 个 难点 在 于 ， 即 使 对 象 已 被 钉 住 ， 回 收 需 仍 需 对 其 
扫描 和 更 新 ， 但 在 执行 该 操作 的 同时 ， 外 部 代码 可 能 也 在 访问 该 对 象 ， 进 而 导致 竞争 的 出 
现 。 为 此 ， 回 收 器 不 仅 要 将 直接 被 外 部 代码 引用 的 对 象 钉 住 ， 同 时 还 可 能 需要 钉 住 其 所 引用 
的 其 他 对 象 。 同 样 地 ， 如 果 外 部 代码 从 某 一 对 象 开 始 遍 历 其 他 对 象 ， 或 者 仅 判 断 /复制 对 象 
的 引用 而 不 关心 其 内 部 数据 ， 回 收 器 仍 需 将 其 钉 住 。 

编程 语言 自身 的 特性 或 其 具体 实现 也 可 能 会 依赖 对 象 的 钉 住 机 制 。 例 如 ， 如 果 编 程 语言 
允许 将 对 象 的 域 当 作 引用 来 传递 ， 则 栈 中 可 能 会 出 现 指 向 对 象 内 部 域 的 引用 。 此 时 我 们 可 以 
使 用 11.2.7 节 所 描述 的 内 部 指针 相关 技术 来 移动 包含 被 引用 域 的 对 象 ， 但 该 技术 的 实现 通常 
较为 复杂 ， 且 正确 处 理 内 部 指针 的 代码 可 能 会 难以 维护 。 因 此 某 些 语言 实现 通常 会 简单 地 将 
此 类 对 象 钉 住 ， 这 便 要 求 回收 器 能 够 简单 高 效 地 判定 出 哪些 对 象 包含 直接 被 其 他 对 象 (或 者 
He) 引用 的 域 。 该 方案 可 以 轻易 解决 内 部 指针 的 处 理 问题 ,但 却 无 法 进一步 拓展 到 更 一 般 化 
的 派生 指针 间 题 (参见 11.2.8 节 )。 


11.5 RRA 


我 们 在 11.2 节 中 介绍 了 栈 上 指针 的 查找 技术 ,但 是 该 技术 却 要 求 在 查找 过 程 中 将 赋值 
器 线程 完全 挂 起 ， 直 到 扫描 过 程 完成 为 止 。 在 赋值 器 线程 执行 的 同时 扫描 其 帧 必然 是 不 安全 
的 ， 因 此 必须 将 线程 挂 起 一 段 时 间 ， 或 者 由 线程 自身 完成 其 栈 的 扫描 ( 即 线程 调用 一 个 自 扫 
描 子 过 程 ， 相 当 于 是 自我 停顿 )， 我 们 将 在 第 11.6 节 详 细 介绍 对 线程 寄存 器 以 及 栈 进 行 扫描 
的 合适 时 机 。 回 收 器 可 以 使 用 增 量 式 栈 扫描 策略 ， 但 也 可 以 使 用 栈 屏 障 (stack barrier) 技术 
进行 主体 并 发 扫描 。 该 方案 的 基本 原理 是 在 线程 返回 (或 者 因 抛 出 异常 而 展开 ) 到 某 一 帧 时 
对 线程 进行 动 持 。 假 设 我 们 在 栈 巾 上 放置 了 屏障 ,然后 回收 器 便 可 异步 地 处 理 F 的 调用 者 
及 其 更 高 层次 的 调用 者 等 ， 同 时 我 们 可 以 确保 在 异步 扫描 的 过 程 中 ,线程 不 会 将 调用 栈 退 回 
到 栈 帧 中。 

引入 栈 屏 障 的 关键 步骤 在 于 劫持 帧 的 返回 地 址 ， 即 将 帧 上 保存 的 返回 地 址 改写 为 栈 屏 障 
处 理 函 数 的 人 口 地 址 ， 同 时 将 原 有 的 返回 地 址 保存 在 栈 屏障 处 理 函 数 可 以 访问 到 的 标准 地 
址 ， 例 如 线程 本 地 存储 中 。 栈 屏障 处 理 函 数 可 以 在 合适 的 时 候 移 除 栈 屏障 ， 同 时 还 应 当 小 心 
确保 不 会 对 上 层 调 用 者 的 寄存 器 造成 任何 影响 。 

线程 在 对 自身 进行 栈 扫描 时 也 可 以 使 用 增 量 扫描 策略 ， 即 当 赋值 器 线程 陷 人 栈 屏 障 处 理 
函数 时 ， 其 会 向 上 扫描 数 个 栈 帧 ， 并 在 扫描 结束 的 位 置 设置 新 的 栈 屏障 (除非 处 理 函 数 已 经 
完成 整个 栈 的 扫描 )。 我 们 将 这 一 技术 称 为 同步 (synchronous) 增 量 扫描 。 与 之 对 应 的 ， 异 
4% (asynchronous) 增 量 扫描 是 由 回收 线程 执行 的 ， 此 时 栈 屏 障 的 目的 是 在 被 扫描 线程 触 达 
被 扫描 栈 帧 之 前 将 其 挂 起 。 扫 描 线程 在 完成 数 个 帧 的 扫描 之 后 可 以 沿 着 调用 栈 的 回 退 方向 移 
动 栈 屏 障 ， 因 此 被 扫描 线程 可 能 永远 都 不 会 触 达 栈 屏障 ， 一旦 触 达 ， 则 被 扫描 线程 必须 等 待 
扫描 线程 执行 完毕 并 解除 栈 屏障 ， 然 后 才能 继续 执行 。 

Cheng 和 Blelloch [2001] 使 用 栈 屏 障 技术 来 限制 一 个 回收 增 量 内 的 工作 量 ， 并 借助 该 技 
术 来 实现 异步 栈 扫描“。 他 们 将 线程 栈 划 分 为 固定 大 小 的 子 栈 (stacklet)， 每 个 子 栈 都 可 以 一 
次 性 完成 扫描 ， 从 一 个 子 栈 返 回 另 一 个 子 栈 的 位 置 即 为 栈 屏障 的 备 选 位 置 。 该 方案 并 不 要 求 
各 子 栈 连续 布局 ， 同 时 也 不 需要 事先 确定 哪些 帧 上 可 以 放置 栈 屏 障 。 
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Te] Sc ie, BE LA 93 — BP EAS WR] EY) Do A ABE FD AI Bin, BAERE BREE Hk oe GH Fy BS HS 
分 未 改变 过 ， 因 此 回收 器 便 不 用 每 次 都 在 这 些 位置 中 寻找 新 的 指针 。 在 主体 并 发 回收 器 中 ， 
该 技术 可 以 减少 回收 周期 结束 时 的 翻转 (flip) 时 间 。 

栈 屏 障 的 另 一 种 用 途 是 处 理 代码 的 动态 变更 ， 特 别 是 经 过 优化 的 代码 。 例 如 ， 假 设 在 某 
一 场景 下 子 过 程 A 调用 了 B，B 又 调用 了 C， 我 们 进一步 假定 系统 将 A 和 B ARK, BI A+B 
共用 一 帧 。 如 果 用 户 修改 了 B， 则 后 续 对 B 的 调用 应 当 执行 到 其 新 版 本 的 代码 中 。 因 此 ， 当 
线程 从 C 中 返回 时 ， 系 统 需要 对 A + B 进行 逆 优 化 ( deoptimise)， 同 时 分 别 为 A 和 B 的 未 
优化 版 本 创建 新 的 帧 ， 只 有 当 线程 从 B 返回 到 A 之 后 ， 子 过 程 A 才能 访问 新 版 的 子 过 程 B。 
系统 甚至 有 可 能 重新 进行 优化 并 构建 出 新 版 的 A + B。 此 处 我 们 关注 的 是 ， 从 C 返回 到 A + 
B 的 过 程 将 触发 逆 优 化 ， 而 栈 屏 障 正 是 触发 机 制 的 一 种 实现 方案 。 


11.6 ”安全 回收 点 以 及 赋值 器 的 挂 起 


我 们 在 第 11.2 节 提 到 ， 回 收 器 需要 知道 哪些 栈 槽 以 及 哪些 寄存 器 包含 指针 ; 我 们 同时 
还 提 到 ， 如 果 垃 圾 回收 发 生 在 同一 函数 的 不 同位 置 ( 即 IP， 也 就 是 指令 指针 )， 这 一 信息 通 
常会 发 生变 化 。 对 于 哪些 位 置 可 以 进行 垃圾 回收 ， 有 两 个 问题 需要 关注 : 第 一 ， 回 收 器 是 否 
可 以 在 某 一 IP 处 安全 执行 垃圾 回收 ; 第 二 ， 如 何 控制 栈 映 射 表 的 大 小 (参见 11.2 WRF ARE 
映射 压缩 的 细节 )， 如 果 允 许 在 更 多 的 位 置 执 行 垃圾 回收 ,那么 通常 需要 更 大 的 栈 映射 表 。 

下 面 我 们 来 考虑 哪些 原因 可 能 导致 回收 器 无 法 在 某 一 IP 处 安全 地 进行 垃圾 回收 。 大 多 
数 系 统 通常 都 会 存在 一 些 必须 作为 整体 来 执行 的 短小 代码 序列 ， 其 目的 在 于 确保 垃圾 回收 需 
要 依赖 的 一 些 不 变 式 得 到 满足 。 例 如 ， 典 型 的 写 屏 障 不 仅 要 执行 底层 写 操 作 ， 还 要 记录 一 些 
额外 的 信息 。 如 果 垃 圾 回收 过 程 发 生 在 这 两 个 阶段 之 间 ， 则 可 能 导致 某 些 对 象 发 生 遗 漏 ， 或 
者 某 些 指针 被 错误 地 更 新 。 系 统 通 常 都 会 包含 许多 此 类 短 代 码 序 列 ， 在 垃圾 回收 器 看 来 它们 
均 应 当 是 原子 化 的 (尽管 在 严格 的 并 发 意义 上 讲 它 们 并 非 真 正 的 原子 化 操作 )。 更 多 的 例子 
还 包括 新 栈 帧 的 创建 、 新 对 象 的 初始 化 等 。 

系统 可 以 简单 地 人 允许 回收 器 在 任意 IP 位置 发 起 垃圾 回收 ， 此 时 回收 器 将 无 需 关 心 赋值 
器 线程 是 否 已 经 挂 起 在 可 以 安全 进行 垃圾 回收 的 位 置 ， 即 安全 回收 点 〔(GC-safe point) 或 者 
简称 回收 点 (GC-point)， 但 此 类 系统 在 实现 上 通常 更 加 复杂 ， 因 为 系统 必须 为 每 个 IP 提供 
对 应 的 栈 映射 ， 或 者 只 能 使 用 不 需要 栈 映射 的 技术 (例如 面向 “不 合作 ”的 C 和 C++ 编译 
器 的 相关 技术 )。 假 定 系 统 允 许 回 收 器 在 绝 大 多 数 IP 位 置 发 起 垃圾 回收 ， 那 么 如 果 某 一 线程 
在 回收 发 起 时 挂 起 在 不 安全 的 人 位置， 则 回收 器 可 以 对 线程 挂 起 位 置 之 后 、 下 一 个 安全 回 
收 点 之 前 的 指令 进行 解析 ， 或 者 将 线程 唤起 一 小 段 时 间 ， 以 便 其 (在 一 定 概率 上 可 以 ) 运行 
到 安全 回收 点 。 指 令 解 析 会 增加 出 错 的 风险 ， 而 将 线程 向 前 驱动 一 小 段 则 只 能 在 一 定 概 率 
上 保证 其 到 达 安 全 回收 点 。 除 此 之 外 ， 此 类 系统 所 需 的 栈 映射 空间 也 可 能 会 很 大 [Stichnoth 
等 ，1999]。 

许多 系统 使 用 另 一 种 完全 不 同 的 策略 ， 即 只 允许 垃圾 回收 发 生 在 特定 的 、 已 注册 的 安全 
回收 点 ， 同 时 也 只 为 这 些 回收 点 生成 栈 映 射 。 出 于 回收 正确 性 的 考虑 ， 安 全 回收 点 的 最 小 集 
合 应 当 包括 每 个 内 存 分 配 位 置 (因为 垃圾 回收 通常 会 在 此 处 发 生 ) 9S、 所 有 可 能 发 生 对 象 分 配 
的 子 过 程 调用 、 所 有 可 能 导致 线程 挂 起 的 子 过 程 调用 (因为 在 某 一 线程 被 挂 起 的 同时 ， 其 他 


日 ”对 于 线程 在 执行 本 地 分 配 之 前 检查 本 地 空闲 空间 是 否 足 够 的 操作 ， 系 统 可 以 不 把 它 当 作 安 全 回收 点 。 
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线程 有 可 能 引发 垃圾 回收 )。 

为 确保 线程 能 够 在 有 限时 间 内 到 达 安 全 回收 点 ， 系 统 可 以 在 安全 回收 点 最 小 集合 之 外 的 
更 多 位 置 增加 回收 点 。 为 此 系统 可 能 需要 在 每 个 循环 中 增加 安全 回收 点 ， 一 个 简单 的 规则 
是 将 函数 内 部 所 有 的 后 退 分 支 设 置 为 安全 回收 点 。 除 此 之 外 ， 系 统 也 有 必要 在 每 个 函数 的 和 人 
口 以 及 返回 位 置 设置 安全 回收 点 ， 否 则 线程 在 到 达 安 全 回收 点 之 前 可 能 需要 经 过 大 量 函 数 调 
用 ， 特 别 是 递归 调用 。 由 于 这 些 额外 的 回收 点 并 不 会 真正 触发 垃圾 回收 ， 所 以 在 线程 这 些 位 
置 只 需要 检查 是 否 有 其 他 线程 发 起 垃圾 回收 ， 因 此 我 们 可 以 称 其 为 回收 检查 点 ( GC-check 
points)。 尽 管 回 收 检查 点 会 给 赋值 器 带 来 一 定 开 销 ， 但 这 一 开销 通常 不 大 ， 编 译 器 也 可 以 通 
过 一 些 简 单 的 方法 来 减轻 这 一 开销 ， 例 如 当 函 数 十 分 短小 ， 或 者 其 内 部 不 包含 循环 或 进一步 
函数 调用 时 将 回收 检查 点 优化 掉 。 为 避免 在 循环 的 每 次 迭代 中 都 执行 回收 检查 ， 编 译 器 也 可 
以 额外 引入 一 层 循 环 ， 即 在 每 n 轮 迭 代 之 后 才 执 行 回收 检查 。 当 然 ， 如 果 回 收 检查 的 开销 很 
小 ， 这 些 优 化 手段 便 不 再 必要 。 总 之 ， 系 统 必 须 在 回收 检查 的 频率 和 回收 发 起 时 延 之 间 做 出 
平衡 。 

Agesen [1998] 对 两 种 将 线程 挂 起 在 安全 回收 点 的 策略 进行 了 比较 。 一 种 策略 是 轮 
询 ( poll)， 即 我 们 刚刚 介绍 的 方案 ， 该 方案 要 求 线 程 在 每 个 回收 检查 点 都 要 对 一 个 旗 标 进 
行 检 查 ， 该 旗 标 被 设置 则 意味 着 其 他 线程 已 经 发 起 了 垃圾 回收 。 另 一 种 方案 是 使 用 补丁 
(patching) 技术 ， 即 当 某 一 线程 处 于 挂 起 状态 时 修改 其 执行 路 径 上 的 下 一 个 (或 者 多 个 ) 回 
收 点 的 代码 ， 线 程 恢 复 执 行 后 便 可 在 下 一 个 回收 点 停顿 下 来 。 这 与 调试 器 在 程序 中 放置 临时 
断 点 的 技术 类 似 。Agesen 发 现 ， 补 丁 技术 的 开销 要 比 轮 询 技术 低 得 多 ， 但 其 实现 起 来 也 更 
加 复杂 ， 在 并 发 系统 中 也 更 容易 出 现 问题 。 

在 引出 回收 检查 点 这 一 思想 时 ， 我 们 曾经 提 到 过 回收 器 和 赋值 器 之 间 的 握手 
(handshake) 机 制 。 即 使 对 于 多 个 赋值 器 线程 执行 在 相同 处 理 器 上 的 这 种 并 非 真 正 “ 并 发 ” 
的 情况 ， 握 手机 制 也 是 十 分 必要 的 ， 在 回收 启动 之 前 ， 回 收 器 必须 将 所 有 已 经 挂 起 、 但 挂 起 
位 置 并 非 安全 回收 点 的 线程 唤醒 ， 并 使 其 运行 到 安全 回收 点 。 为 避免 这 一 额外 的 复杂 度 ， 某 
些 系统 能 够 保证 线程 仅 会 在 安全 回收 点 挂 起 ， 但 基于 其 他 原因 ， 系 统 可 能 无 法 控制 线程 调度 
的 所 有 方面 ， 因 而 仍 需 借助 于 握手 机 制 。 

下 面 我 们 将 具体 介绍 几 种 特殊 的 握手 机 制 。 每 个 线程 可 以 维护 一 个 线程 本 地 变量 ,该 变 
量 用 于 反映 系统 中 的 其 他 线程 是 否 需 要 该 线程 在 安全 回收 点 关注 某 一 事件 。 这 一 机 制 可 以 用 
于 包括 发 起 垃圾 回收 信号 在 内 的 多 种 场景 。 线 程 会 在 回收 检查 点 检查 这 一 本 地 变量 ， 如 果 该 
变量 非 零 ， 则 线程 会 根据 该 变量 的 值 执行 具体 的 系统 子 过 程 。 某 个 特殊 的 值 将 意味 着 “是 时 
候 进行 垃圾 回收 了 ”， 当 线程 发 现 这 一 请 求 之 后 ， 会 设置 另 一 个 本 地 局 部 变量 ， 该 变量 表示 
该 线程 已 经 准备 就 绪 ， 除 此 之 外 线程 也 可 以 对 某 一 回收 器 正在 监听 的 全 局 变量 执行 自 减 操作 
来 达到 这 一 目的 。 系 统 通常 会 尽量 降低 线程 本 地 变量 的 访问 开销 ， 因 而 该 策略 可 能 是 一 个 不 
错 的 握手 机 制 实现 方案 。 

另 一 种 方案 是 在 被 挂 起 线程 已 保存 的 线程 状态 中 设置 处 理 器 条 件 码 ( processor condition 
code)， 因 此 线程 在 回收 检查 点 便 可 通过 一 个 十 分 廉价 的 条 件 分 支 来 调用 该 条 件 码 对 应 的 系 
统 子 过 程 。 该 方案 仅 适 用 于 包含 多 条 件 码 集合 的 处 理 器 (如 PowerPC)， 同 时 还 必须 确保 线 
程 在 被 唤醒 之 后 不 会 处 于 外 部 代码 的 上 下 文中 。 如 果 处 理 器 的 寄存 器 足够 多 ， 则 可 以 使 用 


日 ”外 部 代码 可 能 正在 使 用 这 一 条 件 码 ， 因 而 回收 器 不 能 贸然 进行 修改 。 一 一 译 者 注 
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一 个 寄存 器 来 表示 信号 ， 而 寄存 器 的 使 用 开销 几乎 与 条 件 码 一 样 小 。 如 果 线 程 正在 执行 外 部 
代码 ， 则 系统 便 需 要 通过 某 种 方式 来 关注 线程 何 时 从 外 部 代码 返回 (除非 线程 恰好 被 挂 起 在 
与 安全 回收 点 等 价 的 位 置 )， 对 返回 地 址 进行 支持 (也 可 参见 第 11.5 节 ) 是 捕获 线程 从 外 部 
代码 返回 的 策略 之 一 。 

除了 设置 旗 标 ， 外 加 返回 地 址 支持 这 一 方案 之 外 ， 系 统 还 可 以 使 用 操作 系统 级 别 的 线 
程 间 信和 号 来 实现 握手 ， 例 如 POSIX 线程 中 的 某 些 实现 。 该 策略 可 能 不 具有 广泛 的 可 移植 性 ， 
其 执行 效率 也 可 能 成 为 问题 。 影 响 效率 的 原因 之 一 是 信号 传递 的 到 用 户 级 别处 理 函 数 需要 通 
过 操作 系统 内 核 级 别 的 通道 ， 而 这 一 通道 的 处 理 路 径 相对 较 长 。 除 此 之 外 ， 这 一 机 制 不 仅 需 
要 借助 于 底层 处 理 器 中 断 ， 还 会 影响 高 速 缓存 以 及 转译 后 备 缓冲 区 ， 这 也 是 影响 其 执行 效率 
的 重要 原因 之 一 。 

综 上 所 述 ， 回 收口 与 赋值 器 线程 之 间 的 握手 机 制 主要 有 两 种 实现 方式 : 一 种 是 同步 通 
知 ， 也 可 称 之 为 轮 询 ， 另 一 种 是 通过 某 种 信和 号 或 者 中 断 实现 异步 通知 。 每 种 实现 机 制 都 有 相 
应 的 实现 开销 ， 而 且 具 体 的 开销 会 随 着 平台 的 不 同 有 所 差异 。 轮 询 可 能 也 需要 编译 器 级 别 的 
协作 ， 这 取决 于 所 选择 的 实现 技术 。 另 外 ， 由 于 栈 扫描 等 操作 并 非 在 任意 时 间 都 可 以 执行 ， 
所 以 异步 通知 通常 需要 转换 成 同步 通知 ， 此 时 信号 处 理 函数 的 主要 目的 将 是 设置 某 一 线程 本 
地 旗 标 ， 而 线程 则 应 当 在 发 现 该 旗 标 被 设置 后 做 出 响应 。 

我 们 需要 进一步 指出 的 是 ， 如 果 各 线程 直接 完成 其 栈 的 扫描 ， 必 须 还 要 考虑 硬件 和 软件 
层面 的 并 发 情况 ， 此 处 可 能 会 涉及 第 13 章 的 相关 内 容 。 其 中 与 握手 机 制 相关 性 最 大 的 内 容 
可 能 是 第 13.7 节 ， 届 时 我 们 将 介绍 相关 线程 如 何 从 回收 的 一 个 阶段 迁移 到 另 一 个 阶段 ， 以 
及 赋值 器 线程 在 回收 的 开始 和 结束 阶段 应 当 执行 哪些 工作 。 


11.7 ”针对 代码 的 回收 


许多 系统 会 预先 对 所 有 代码 进行 静态 编译 ,但 也 有 一 些 程序 可 以 在 运行 时 构建 并 执行 代 
码 ， 例 如 垃圾 回收 技术 的 鼻祖 一 一 Lisp 语言 。 尽 管 Lisp 最 初 是 解释 型 语言 ， 但 其 在 很 早 就 
已 经 能 够 编译 成 本 地 代码 。 目 前 ， 越 来 越 多 的 系统 已 经 能 够 动态 加 载 或 者 构建 代码 ， 并 在 运 
行 时 进行 优化 。 由 于 系统 可 以 动态 加 载 或 者 生成 代码 ， 所 以 我 们 自然 会 希望 当 这 些 代 码 不 再 
使 用 时 ， 其 所 占用 的 空间 能 够 得 到 回收 。 面 对 这 一 问题 ， 直 接 的 追踪 式 或 引用 计数 算法 通常 
无 法 满足 该 要 求 ， 因 为 许多 从 全 局 变量 或 者 符号 表 可 达 的 函数 代码 将 永远 无 法 清空 。 某 些 语 
言 只 能 靠 开 发 者 显 式 印 载 这 些 代码 实例 ， 但 语言 本 身 甚 至 可 能 根本 不 支持 这 一 操作 。 

另外 ， 还 有 两 个 特殊 场景 值得 进一步 关注 。 首 先是 由 一 个 函数 和 一 组 环境 变量 绑 定 而 成 
的 闭 包 。 我 们 假设 某 一 简单 的 闭 包 是 由 内 内 在 函数 f 中 的 函数 g， 以 及 函数 的 完整 环境 变 
量 构成 的 ， 它 们 之 间 可 能 会 共享 某 一 环境 对 象 。Thomas 和 Jones[1994] 描述 了 一 种 系统 ， 该 
系统 可 以 在 进行 垃圾 回收 时 将 闭 包 的 环境 变量 特 化 为 仅 由 函数 g 使 用 的 变量 。 该 策略 可 以 确 
保 某 些 其 他 闭 包 最 终 不 可 达 并 得 到 回收 。 

另 一 种 场景 出 现在 基于 类 的 系统 中 ,例如 Java。 此 类 系统 中 的 对 象 实例 通常 会 引用 其 
所 属 类 型 的 信息 。 系 统 通常 会 将 类 型 信息 及 其 方法 所 对 应 的 代码 保存 在 非 移动 的 、 不 会 进行 
垃圾 回收 的 区 域 ， 因 此 回收 器 便 可 忽略 掉 所 有 对 象 中 指向 类 型 信息 的 指针 。 但 是 如 果 要 回收 
类 型 信息 ， 回 收 器 就 必须 要 对 所 有 对 象 中 指向 类 型 信息 的 指针 进行 追踪 ， 在 正常 情况 下 这 一 
操作 可 能 会 显著 增 大 回收 开销 。 回 收 器 可 以 仅 在 特殊 模式 下 才 对 指向 类 型 信息 的 指针 进行 
追踪 。 
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对 于 Java 而 言 ， 运 行 时 类 是 由 其 类 代码 以 及 类 加 载 器 (class loader) 共同 决定 的 9 由 于 
系统 在 加 载 类 时 通常 会 存在 一 些 副作用 (例如 初始 化 静态 变量 )， 所 以 类 的 卸载 会 变 得 不 透明 
〈 即 存在 副作用 一 一 译 者 注 )， 这 是 因为 该 类 可 能 会 被 同一 个 类 加 载 器 重新 加 载 。 唯 一 可 以 确 
保 该 类 不 被 某 个 类 加 载 器 加 载 的 方法 是 使 类 加 载 吉 本 身 也 能 得 到 回收 。 类 加 载 器 中 包含 一 个 
已 加 载 类 表 〈 以 避免 重复 加 载 或 者 重复 初始 化 等 )， 运 行 时 类 也 需要 引用 其 类 加 载 器 (作为 自 
身 标识 的 一 部 分 )。 因 此 ， 如 果 要 回收 一 个 类 ， 则 必须 确保 其 类 加 载 咽 、 该 类 加 载 器 所 加 载 
的 其 他 类 、 所 有 由 该 类 加 载 器 所 加 载 的 类 的 实例 都 不 被 现 有 的 线程 以 及 全 局 变量 所 引用 (此 
处 的 全 局 变量 应 当 是 由 其 他 类 加 载 器 加 载 的 类 的 实例 )。 另 外 ， 由 于 引导 类 加 载 器 (bootstrap 
class loader) 永远 不 会 被 回收 ， 所 以 其 所 加 载 的 任何 类 都 无 法 得 到 回收 。 由 于 Java X HRE 
一 种 特殊 的 情况 ， 所 以 某 些 依赖 这 一 特性 的 程序 或 者 服务 器 可 能 会 因此 耗 尽 空间 。 

即使 对 于 用 户 可 见 的 代码 元 素 〈 例 如 方法 、 函 数 、 闭 包 等 )， 系 统 也 可 能 为 其 生成 多 份 实 
例 以 用 于 解析 或 者 在 本 地 执行 ， 例 如 经 过 优化 的 和 未 经 优化 的 版 本 、 函 数 的 特 化 版 本 等 。 为 
函数 生成 新 版 本 实例 可 能 会 导致 其 老 版 本 实例 在 未 来 的 调用 中 不 可 达 ,， 但 这 些 老 版 本 实例 可 
能 仍 在 当前 的 执行 过 程 中 得 到 调用 ， 它 们 在 栈 槽 或 者 闭 包 中 的 返回 地 址 会 保持 其 可 达 性 。 因 
此 在 任何 情况 下 ， 系 统 都 不 能 立即 回收 老 版 本 代码 实例 ， 而 只 能 通过 追踪 或 者 引用 计数 的 方 
法 来 将 其 回收 。 此 处 的 相关 技术 是 栈 上 替换 ( on-stack replacement) 技术 ， 即 系统 使 用 新 版 
本 代码 实例 来 替换 其 正在 执行 的 老 版 本 实例 。 该 方案 不 仅 可 以 提升 正在 运行 的 方法 调用 的 性 
能 ， 而 且 有 助 于 回收 老 版 本 的 代码 ， 因 而 其 使 用 越 来 越 广泛 ， 具 体 可 参见 Fink、Qian[2003] 
以 及 Soman, Krintz[2006] 的 栈 上 替换 方案 及 其 在 Java 中 的 应 用 。 栈 上 替换 技术 的 直接 目的 
通常 是 优化 代码 或 其 他 一 些 应 用 ,例如 需要 对 代码 进行 逆 优 化 的 调 斌 需求， 而 在 男 一 方面 ， 
回收 器 也 可 以 利用 该 技术 来 回收 老 版 本 代码 。 


11.8 #5 Re 


许多 垃圾 回收 算法 需要 赋值 器 在 运行 时 探测 并 记录 回收 相关 指针 (interesting pointer) o 
如 果 回 收 器 仅 回 收 堆 中 一 部 分 区 域 ， 则 任何 从 该 区 域 之 外 指向 该 区 域 的 指针 都 属于 回收 相关 
指针 ， 且 回收 器 必须 在 后 续 处 理 过 程 中 将 它们 当 作 根 。 例 如 ， 分 代 垃 圾 回收 器 必须 捕获 所 有 
将 年 轻 代 对 象 的 引用 写 入 年 老 代 对 象 的 写 操 作 。 我 们 将 在 第 15 章 看 到 ， 当 赋值 器 和 回收 器 
交替 执行 时 (不 论 回收 器 是 和 否 运 行 在 单独 的 回收 线程 之 上 )， 将 很 有 可 能 出 现 赋值 器 操作 导 
致 回收 器 无 法 追踪 到 某 些 可 达 对 象 的 情况 ， 如 果 这 些 引 用 没有 被 正确 地 探测 到 并 传递 给 回收 
器 ， 则 存活 对 象 可 能 会 被 过 早 地 回收 。 这 些 场景 都 要 求 赋值 器 即时 地 将 回收 相关 指针 添加 到 
回收 器 的 工作 列表 中 ， 而 这 一 任务 的 完成 就 需要 借助 于 读 写 屏障 。 

在 其 他 章节 中 ， 我 们 关注 的 主要 都 是 特定 的 回收 算法 ， 读 写 屏 障 只 是 作为 算法 所 必需 的 
一 部 分 被 提 及 ， 但 在 本 节 ， 我 们 将 对 如 何 实现 屏障 这 一 问题 进行 总 体 介绍 。 本 节 我 们 将 把 各 
种 特定 回收 算法 (例如 分 代 回 收 器 或 并 发 回收 器 ) 中 的 读 写 屏 障 进行 抽象 ， 并 将 注意 力 集 中 
在 回收 相关 指针 的 探测 与 记录 上 。 探 测 ( detection) 即 确定 某 一 指针 是 否 属于 回收 相关 指针 ， 
而 记录 (record) 则 是 对 回收 相关 指针 进行 登记 ,以 便 回 收 器 后 续 使 用 。 探 测 和 记录 在 某 种 
程度 上 是 正 交 的 ， 但 某 些 探测 方法 的 使 用 可 能 会 加 强 特定 记录 方法 的 优势 ， 例 如 ， 如 果 写 屏 
障 通过 页 保护 违例 来 进行 探测 ， 则 对 被 修改 位 置 进行 记录 会 更 加 合理 。 

© Java 虚拟 机 在 判定 两 个 Java 类 是 否 相 同时 ， 不 仅 要 判断 类 的 全 名 是 否 相 同 ， 还 要 判断 加 载 此 类 的 类 加 载 器 是 

否 一 样 。 一 一 译 者 注 
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11.8.1 读 写 屏障 的 设计 工程 学 


除了 要 执行 真正 的 读 / 写 操作 之 外 ， 典 型 的 屏障 通常 还 会 包括 一 些 额 外 的 检查 与 操作 。 
典型 的 检查 包括 判断 被 写 入 的 指针 是 否 为 空 、 被 引用 对 象 与 其 引用 者 所 处 分 代 之 间 的 关系 
等 ， 而 典型 的 操作 则 是 将 对 象 记录 到 记忆 集中 。 完 整 的 检查 以 及 记录 操作 可 能 太 大 ， 以 至 于 
无 法 整体 内 联 ， 但 这 取决 于 屏障 的 具体 实现 。 即 使 得 到 内 联 的 指令 序列 相对 短小 ， 仍 可 能 导 
致 编译 右 生 成 的 代码 剧烈 膨胀 并 进一步 影响 指令 高 速 缓存 的 性 能 。 由 于 屏障 内 部 的 大 部 分 代 
码 通常 很 少 执行 ， 所 以 设计 者 可 以 将 指令 序列 划分 为 “快速 路 径 ” 和 “ 慢 速 路 径 ”: 快速 路 
径 通常 会 进行 内 联 以 确保 性 能 ， 而 慢 速 路 径 则 只 有 在 必要 时 才 会 调用 ， 也 就 是 说 ， 为 节省 空 
间 以 及 提升 指令 高 速 缓存 的 性 能 ， 慢 速 路 径 通常 只 会 存在 一 份 代码 实例 。 快 速 路 径 应 当 包 含 
最 一 般 的 情况 ， 而 慢 速 路 径 则 仅 应 当 在 部 分 情况 下 执行 ， 这 一 点 十 分 重要 。 某 些 情况 下 ， 这 
一 规则 同样 也 适用 于 慢 速 路 径 的 设计 : 如 果 屏 障 会 经 常 进行 多 重 检查 ， 则 设计 者 有 必要 对 检 
查 逻 辑 进 行 合理 排序 ， 并 确保 第 一 重 检查 会 过 滤 掉 大 多 数 情况 ， 第 二 重 检查 可 以 过 滤 掉 次 多 
的 情况 ， 以 此 类 推 ， 从 而 最 大 限度 地 降低 检查 开销 。 为 达到 这 一 要 求 ， 设 计 者 通常 需要 对 检 
查 逻 辑 以 多 种 方式 进行 排序 并 分 别 测量 其 性 能 ， 因 为 现代 硬件 环境 中 存在 非常 多 的 影响 因 
素 ， 以 至 于 用 简单 的 分 析 模 型 通常 无 法 给 出 足够 好 的 指引 。 

提升 读 写 屏障 性 能 的 另 一 个 因素 是 加 速 所 有 必需 数据 结构 的 访问 速度 ， 例 如 卡 表 。 系 统 
甚至 可 以 付出 一 个 寄存 器 的 代价 来 保存 某 一 数据 结构 的 指针 ， 例 如 卡 表 的 基地 址 等 ， 但 是 否 
值得 如 此 取决 于 机 器 以 及 算法 的 类 型 。 

设计 者 还 需要 对 软件 工程 学 有 所 关注 ， 包括 如 何 对 垃圾 回收 算法 的 各 个 方面 ( 即 读 写 屏 
障 、 回 收 检查 、 分 配 顺 序 等 ) 进行 整合 ， 它 们 都 会 被 构建 到 系统 的 编译 器 中 。 如 果 有 可 能 ， 
设计 者 最 好 能 为 编译 器 指明 哪些 子 过 程 需要 内 联 ， 这 些 子 过 程 内 部 应 当 是 快速 路 径 所 对 应 的 
代码 序列 。 这 样 一 来 ， 编 译 器 便 无 需 知道 具体 细节 ， 而 设计 者 则 可 以 自由 蔡 换 这 些 内 联 子 过 
程 。 但 正如 我 们 前 面 所 提 到 的 ， 这 些 代 码 序 列 可 能 会 存在 一 些 限制 ， 例 如 在 其 执行 过 程 中 不 
允许 发 生 垃 圾 回收 ， 这 便 需 要 设计 者 小 心 对待 。 编 译 器 可 能 也 需要 避免 对 这 些 代码 序列 进行 
优化 ， 例 如 保留 一 些 显而易见 的 无 用 写 和 人 《它们 所 写 人 的 数据 对 回收 器 有 用 )、 禁 止 对 屏障 
代码 进行 指令 重 排序 或 者 与 周围 代码 进行 穿插 。 最 后 ， 编 译 器 可 能 需要 支持 一 些 特殊 的 编译 
指示 (pragma)， 或 者 允许 设计 者 使 用 特殊 的 编译 属性 ， 例 如 不 可 中 断 的 代码 序列 。 

我 们 将 在 本 节 的 剩余 部 分 讨论 写 屏 障 。 读 屏障 一 般 用 于 并 发 回收 器 和 增 量 回收 器 中 ， 因 
而 我 们 将 其 推迟 到 相关 章节 中 介绍 。 写 屏障 比 读 屏障 复杂 得 多 ， 它 不 仅 要 探测 回收 相关 指 
针 ， 而 且 还 需要 记录 一 些 信息 以 供 回收 器 后 续 使 用 。 相 比 之 下 ， 读 屏障 通常 只 会 触发 一 些 立 
即 性 的 操作 ， 例 如 将 刚刚 加 载 的 引用 的 目标 对 象 复制 到 目标 空间 中 。 


11.8.2 ” 写 屏障 的 精度 


回收 相关 指针 的 记录 存在 多 种 不 同 的 实现 策略 与 机 制 ， 具 体 的 实现 策略 决定 了 记忆 集 记 
录 回 收 相 关 指 针 位 置 的 精度 。 在 选择 回收 相关 指针 的 记录 策略 时 ， 我 们 需要 对 赋值 器 与 回 
收 器 各 自 的 开销 进行 平衡 。 实 践 中 我 们 通常 倾向 于 增加 相对 不 频繁 的 回收 过 程 〈 例 如 查找 根 
集合 ) 的 开销 ， 同 时 降低 更 为 频繁 的 赋值 器 行为 〈 例 如 堆 的 写 操作 ) 的 开销 。 如 果 抛 开 写 屏 
障 的 影响 ， 指 针 的 写 和 操作 通常 都 很 快 (尽管 托管 代码 通常 会 对 空 指针 或 者 数组 边界 进行 检 
E) 在 引入 写 屏 障 之 后 ， 指 针 写 操作 所 需 的 指令 数 可 能 会 增 大 两 倍 或 者 更 多 ， 但 如 果 写 屏 
障 的 局 部 性 比 赋值 器 自身 的 局 部 性 要 好 ， 则 这 一 开销 很 可 能 会 被 掩盖 (例如 ， 写 屏障 在 记录 


168 #11# 


回收 相关 指针 时 通常 不 会 导致 用 户 代 码 的 延迟 )。 一 般 来 说 ， 记 忆 集中 回收 相关 指针 的 记录 
精度 越 高 ， 回 收 器 查找 操作 的 开销 就 会 越 低 ， 而 赋值 器 过 滤 并 记录 指针 的 开销 则 会 越 高 。 作 
为 一 种 极端 情况 ， 分 代 式 回收 器 中 的 赋值 器 可 以 不 记录 任何 指针 写 操作 ， 从 而 将 所 有 回收 相 
关 开 销 转移 给 回收 器 ， 此 时 后 者 就 只 能 扫描 整个 堆 空间 并 找 出 所 有 指向 定罪 分 代 的 引用 。 虽 
然 这 并 非 一 种 通用 的 较为 成 功 的 分 代 策 略 ， 但 是 对 于 无 法 借助 于 编译 器 或 者 操作 系统 的 支 
持 来 捕获 指针 写 操作 的 场景 ， 这 可 能 是 唯一 可 选 的 分 代 策 略 ， 此 时 回收 器 可 以 使 用 局 部 性 更 
好 的 线性 扫描 而 非 追踪 策略 来 查找 回收 相关 指针 [Bartlett，1989a]。Swanson [1986] 和 Shaw 
[1988] 声称 ， 与 简单 的 半 区 复制 策略 相 比 ， 这 一 策略 可 以 降低 2/3 的 垃圾 回收 开销 。 

记忆 和 集 的 设计 策略 需要 从 三 个 维度 进行 考虑 。 第 一 ， 回 收 相关 指针 的 记录 应 达到 何 种 精 
度 。 尽 管 并 非 所 有 的 指针 都 是 回收 相关 指针 ， 但 对 于 赋值 器 而 言 ， 无 条 件 记录 的 开销 显然 
会 低 于 对 回收 无 关 指 针 执 行 过 滤 之 后 再 记录 。 记 忆 集 的 具体 实现 是 决定 过 滤 开 销 的 关键 : 如 
果 记 忆 集 可 以 使 用 非常 廉价 的 机 制 来 增加 条 目 ， 例 如 简单 地 在 某 一 固定 大 小 的 表 中 写 人 一 个 
字 节 ， 则 该 策略 非常 适合 无 条 件 记 录 ， 特 别 是 在 添加 操作 本 身 满 足 寡 等 要 求 的 情况 下 ; 另 一 
方面 ， 如 果 向 记忆 集 添 加 条 目的 开销 较 高 ， 或 者 记忆 集 的 大 小 也 需要 控制 ， 则 写 屏障 过 滤 掉 
回收 无 关 指针 则 显得 十 分 必要 。 对 于 并 发 回收 器 或 者 增 量 回收 器 而 言 ， 过 滤 操 作 是 必 不 可 少 
的 ， 只 有 这 样 才能 确保 回收 器 的 工作 列表 可 以 最 终 为 空 。 每 种 过 滤 策 略 都 需要 考虑 过 滤 逻 辑 
应 当 内 联 到 何 种 程度 ， 何 时 应 当 通过 外 部 调用 来 执行 过 滤 或 将 指针 添加 到 记忆 集 。 内 联 的 指 
令 越 多 ， 则 需要 执行 的 指令 越 少 ， 但 这 可 能 导致 代码 体积 的 膨胀 并 增 大 指令 高 速 缓存 不 命中 
的 几率 ， 进 而 影响 程序 的 性 能 。 因 此 ， 开 发 者 需要 对 过 滤 检 查 的 顺序 以 及 需要 内 联 的 过 滤 操 
作 进 行 精细 化 调节 。 

第 二 ， 对 指针 位 置 的 记录 应 当 达 到 何 种 粒度 。 最 精确 的 方案 是 记录 指针 所 写 人 的 域 的 地 
址 ， 但 如 果 某 一 对 象 中 的 指针 域 较 多 (例如 对 数组 进行 更 新 时 )， 则 可 能 会 增 大 记忆 集 的 大 
小 。 另 一 种 方案 是 记录 被 修改 指针 域 所 在 的 对 象 ， 其 优势 在 于 可 以 根据 对 象 进行 去 重 ， 对 指 
针 域 进行 记录 通常 无 法 做 到 这 一 点 〈 因 为 在 指针 域 中 通常 不 会 有 额外 的 空间 来 标记 该 域 是 否 
已 被 记录 )。 记 录 对 象 的 方法 要 求 回收 器 在 追踪 阶段 扫描 对 象 内 部 的 每 个 指针 域 ， 进 而 才能 
找到 它们 所 引用 的 尚未 得 到 追踪 的 对 象 。 一 种 混合 式 解 决 方案 是 以 对 象 为 粒度 来 记录 数组 ， 
而 以 指针 域 为 粒度 来 记录 纯 对 象 ， 因 为 当 数 组 中 的 一 个 域 得 到 更 新 时 ， 其 他 域 通常 也 会 得 到 
更 新 。 也 可 使 用 完全 相反 的 策略 ， 即 以 指针 域 为 粒度 来 记录 数组 (以 避免 对 整个 数组 进行 扫 
描 )， 而 以 对 象 为 粒度 来 记录 纯 对 象 ( 纯 对 象 通常 比较 小 )。 对 于 数组 而 言 ， 还 可 以 只 记录 数 
组 的 一 部 分 ， 这 一 策略 与 卡 标记 (card mark) 策略 十 分 类 似 ， 不 同 之 处 在 于 其 依照 数组 索引 
而 非 数 组 域 在 虚拟 内 存 中 的 地 址 进行 对 齐 。 究 竟 应 当 记录 对 象 还 是 记录 域 ， 还 取决 于 赋值 器 
可 以 获取 到 哪些 信息 : 如 果 写 操作 既 可 以 获取 对 象 的 地 址 又 可 以 获取 指针 域 的 地 址 ， 则 其 可 
以 任意 选择 一 种 ; 但 如 果 写 屏障 只 能 获取 被 写 人 域 的 地 址 ， 则 计算 其 所 属 对 象 的 地 址 可 能 会 
引入 额外 的 开销 。Hosking 等 [1992] 在 某 一 解释 型 Smalltalk 系统 中 解决 了 这 一 难题 ， 它 们 
的 策略 是 在 顺序 存储 缓冲 区 中 同时 记录 对 象 以 及 域 的 地 址 。 

FK (card table) 技术 (我 们 将 在 稍 后 介绍 ) 将 堆 在 逻辑 上 划分 为 较 小 上 且 固 定 大 小 的 卡 。 
该 方案 以 卡 为 粒度 来 记录 指针 的 修改 操作 ， 其 记录 方式 通常 是 在 卡 表 中 设置 一 个 标记 字 节 。 
卡 标记 不 仅 可 以 对 应 被 修改 的 域 ， 也 可 以 对 应 被 修改 的 对 象 (两 类 信息 可 以 对 应 不 同 的 卡 )。 
在 回收 阶段 ， 回 收 器 必须 先 找 到 所 有 与 待 回 收 分 代 相 关 的 脏 卡 ， 然 后 找 出 其 中 记录 的 所 有 回 
收 相关 指针 。 卡 表 的 记录 方式 (记录 对 象 还 是 记录 域 ) 会 影响 查找 过 程 的 性 能 。 比 卡 表 的 粒 
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度 更 粗 的 记录 方式 是 以 虚拟 内 存 页 为 单元 ， 其 优点 在 于 可 以 借助 于 硬件 与 操作 系统 的 支持 来 
实现 写 屏 障 ， 从 而 不 会 给 赋值 器 带 来 任何 直接 负担 ， 但 与 卡 表 类 似 ， 回 收 器 的 工作 负担 则 会 
加 重 。 与 卡 表 的 不 同 之 处 在 于 ， 由 于 操作 系统 不 可 能 获取 对 象 的 布局 信息 ， 因 而 页 标记 方案 
通常 只 能 对 应 被 修改 的 指针 域 ， 而 无 法 获取 其 所 属 的 对 象 。 

第 三 ， 是 否 允 许 记 忆 集 包含 重复 条 目 。 人 允许 重复 条 目的 好 处 在 于 可 以 降低 赋值 器 的 去 重 
检测 开销 ， 但 代价 是 增 大 了 记忆 和 集 的 大 小 以 及 回收 器 处 理 重复 条 目的 开销 。 卡 表 和 页 标记 技 
术 是 通过 在 表 中 设置 标记 位 或 者 标记 字 节 的 方式 来 进行 标记 的 ， 因 而 其 可 以 天 然 实现 去 重 。 
如 果 使 用 记录 对 象 的 方式 ， 也 可 以 通过 标记 对 象 的 方式 实现 去 重 ， 例 如 通过 对 象 头 部 中 的 一 
个 标记 位 来 记录 其 是 否 已 经 添加 到 日 志 中 ,但 如 果 以 指针 域 为 记录 粒度 则 无 法 通过 这 一 方式 
进行 简单 去 重 。 尽 管 该 策略 可 以 降低 记忆 集 的 空间 大 小 ， 但 其 需要 赋值 器 执行 一 次 额外 的 判 
断 逻 辑 以 及 一 次 额外 的 写 操作 。 如 果 不 允 许 记忆 集中 出 现 重 复 对 象 ， 则 记忆 和 集 的 实现 必须 是 
真正 的 集合 (set) MESRA (multiset) 。 

综 上 所 述 ， 如 果 使 用 卡 表 或 者 基于 页 的 记录 策略 ， 则 回收 器 的 扫描 开销 取决 于 脏 卡 或 者 
脏 页 的 数量 。 如 果 允 许 记忆 集中 出 现 重复 条 目 ， 则 回收 器 的 开销 将 取决 于 指针 写 操作 的 数 
量 ， 而 如 果 不 允 许 重复 ， 则 回收 器 的 开销 取决 于 被 修改 的 指针 域 的 数量 。 不 论 对 于 哪 种 情 
况 ， 过 滤 掉 回收 无 关 指针 都 会 减少 回收 器 扫描 根 集合 的 开销 。 记 忆 集 的 实现 方式 包括 哈 希 
表 、 顺 序 存储 缓冲 区 、 卡 表 、 虚 拟 内 存 机 制 与 硬件 支持 ， 我 们 将 逐一 进行 介绍 。 


11.8.3 RAR 


如 果 不 硕 望 在 记忆 集中 出 现 重 复 条 目 ， 则 其 实现 必须 是 真正 的 集合 。 同 样 ， 如 果 对 象 头 
部 中 没有 足够 的 空间 来 记录 其 是 否 已 经 添加 到 记忆 集 ， 也 需要 通过 集合 来 记录 对 象 。 我 们 进 
一 步 希 望 向 记忆 集中 增加 条 目的 操作 可 以 很 快 完成 ， 最 好 是 在 常数 时 间 内 。 哈 希 表 即 是 满足 
这 些 条 件 的 实现 方案 之 一 。 

在 Hosking 等 [1992] 的 多 分 代 内 存 管理 工具 包 中 ， 他 们 给 出 了 一 种 基于 线性 散 列 环 状 
AA k (circular hash table) 的 记忆 和 集 实现 方案 ， 并 将 其 应 用 在 一 种 Smalltalk 解释 器 中 ， 该 
解释 器 将 栈 帧 保存 在 堆 的 第 0 分 代 的 第 0 阶 中 。 具 体 而 言 ， 每 个 分 代 都 会 对 应 一 个 独立 的 记 
忆 集 ， 且 记忆 集中 既 可 以 记录 对 象 ， 也 可 以 记录 域 。 其 哈 希 表 基 于 一 个 包含 2 + 个 元 素 的 
数组 实现 (k= 2 )， 它 们 将 地 址 映射 为 一 个 i 位 的 哈 希 值 (从 对 象 的 中 间 几 位 中 获取 )， 并 以 
此 作为 该 地 址 在 数组 中 的 索引 。 如 果 该 索引 对 应 的 位 置 为 空 ， 则 将 该 对 象 的 地 址 或 域 保存 在 
该 索引 位 置 ， 和 否则 将 在 后 续 的 上 个 位 置 中 查找 可 用 位 置 (此 时 并 非 环 状 查 找 ， 正 因 如 此 ， 数 
组 的 大 小 才 是 2'+k)。 如 果 依 然 查 找 失 败 ， 则 对 数组 进行 环 状 查找 。 

为 减轻 记录 指针 的 工作 量 ， 写 屏障 首先 过 滤 掉 所 有 针对 第 0 代 对 象 的 写 操作 以 及 所 有 
新 -新 指针 ( 即 从 新 生 对 象 指向 新 生 对 象 的 指针 ) 的 创建 。 另 外 ， 写 屏障 会 将 所 有 回收 相关 
指针 添加 到 一 个 单独 的 “草稿 ”记忆 和 集 中， 而 非 直接 将 其 添加 到 目标 分 代 所 对 应 的 记忆 集 。 
该 策略 不 会 占用 赋值 器 的 时 间 来 判断 回收 相关 指针 究竟 属于 那个 记忆 集 ， 因 而 其 可 能 更 加 适 
合 多 线程 环境 ， 除 此 之 外 ， 为 每 个 处 理 器 维护 “草稿 ”记忆 集 也 可 以 避免 潜在 的 冲突 问题 ， 
因为 线程 安全 哈 希 表 在 运行 时 可 能 会 引入 较 大 开销 。 综 上 ，Hosking 等 使 用 17 条 内 联 MIPS 
指令 来 实现 写 屏障 的 快速 路 径 ， 其 中 包括 更 新 记忆 集 的 相关 调用 。 即 使 对 于 MIPS 这 种 寄存 
器 较 多 的 架构 ， 这 一 方案 的 开销 也 相对 较 高 。 在 回收 阶段 ， 来 自 某 一 分 代 的 根 要 么 位 于 该 分 
代 对 应 的 记忆 集中 ， 要 么 位 于 “草稿 ”记忆 和 集中。 回收 器 可 以 将 分 代 所 对 应 的 记忆 集中 的 回 
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收 相关 指针 重新 散 列 到 “草稿 ”记忆 集中 ， 从 而 完成 去 重 ， 然 后 再 将 “草稿 ”记忆 集中 的 所 
有 回收 相关 指针 添加 到 合适 的 记忆 集中 。 

Garthwaite 在 其 火车 回收 算法 的 实现 中 也 使 用 了 哈 希 表 。 其 哈 希 表 的 操作 一 般 是 插入 以 
及 迭代 ， 因 而 其 使 用 开放 定 址 法 (open addressing) 来 解决 冲突 问题 。 由 于 哈 希 表 中 经 常会 
记录 相 邻 地 址 ， 所 以 其 舍弃 了 会 将 相 邻 地 址 映射 到 哈 硕 表 中 相 邻 槽 的 线性 定 址 法 ( 即 简单 的 
地 址 模 ，N 为 哈 硕 表 的 大 小 )， 取 而 代 之 的 是 通用 的 哈 希 函数 。Garthwaite 选用 了 一 个 58 
位 的 质数 p， 并 为 每 个 哈 希 表 绑 定 两 个 参数 a 和 4b， 这 两 个 参数 是 通过 重复 调用 一 个 伪 随 机 
函数 生成 的 [Park and Miller, 1988], H.0 <a, b < p。 某 一 地 址 > 在 哈 希 表 中 对 应 的 索引 是 
((ar + b) mod p) mod N。 当 冲突 发 生 时 ， 开 放 定 址 法 需要 一 定 的 手段 来 进行 再 次 探测 。 线 性 
探测 与 平方 探测 (下 一 个 探测 位 置 的 索引 值 为 当前 索引 值 加 4， 且 每 次 探测 都 对 4 增加 一 个 
常量 让 可 能 会 导致 一 组 插入 请 求 产 生 相 同 的 探测 序列 ， 因 而 Garthwaite 使 用 再 散 列 方法 ， 
即 把 平方 探测 中 的 增 量 i 替换 为 一 个 基于 地 址 的 函数 。 对 于 大 小 为 2 的 整数 次 宕 的 哈 希 表 ， 
如 果 探 测 增 量 :为 奇数 ， 则 可 以 确保 整个 哈 希 表 都 可 以 探测 到 。Garthwaite 的 策略 是 : 在 每 
次 探测 时 判断 4 是 否 为 奇数 ， 如 果 是 ， 则 将 i 设置 为 零 (线性 探测 )， 否 则 则 将 da 和 i 都 设置 
为 d+ 1。 如 此 一 来 ， 可 用 探测 序列 的 集合 便 可 翻 倍 。 最 后 ， 如 果 哈 希 表 的 负载 过 高 ， 则 需 
要 进行 扩展 ， 一 种 可 选 方案 是 通过 修改 插入 过 程 来 重新 平衡 哈 希 表 。 当 发 生 碰 撞 时 ， 我们 需 
要 判断 是 要 将 当前 正在 插入 的 地 址 进行 再 次 探测 ， 还 是 将 当前 槽 中 原 有 的 对 象 进行 冲突 探测 
(并 将 其 插入 到 新 的 位 置 )。Garthwaite 等 人 使 用 robin hood 哈 希 [Celis 等 ，1985]， 其 每 个 模 
中 存储 的 条 目 都 会 记录 其 插入 过 程 中 的 探测 次 数 ， 由 于 哈 希 表 所 记录 的 地 址 中 会 存在 很 多 为 
零 的 位 (例如 卡 的 地 址 )， 所 以 可 以 复 用 这 些 位 来 记录 探测 次 数 。 当 插入 一 个 新 地 址 时 ， 如 
果 探 测 所 得 的 槽 已 被 占用 ， 我 们 会 选择 槽 中 的 现 有 地 址 以 及 待 插 入 地 址 中 探测 次 数 较 多 的 一 
个 留 在 柳 中， 而 对 另 一 个 地 址 继续 进行 探测 。 


11.8.4 顺序 存储 缓冲 区 

使 用 简单 的 顺序 存储 缓冲 区 (sequential store buffer, SSB) (例如 内 存 块 链表 ) 可 以 加 快 
指针 的 记录 速度 。 每 个 线程 可 以 针对 所 有 分 代 维 护 统一 的 本 地 顺序 存储 缓冲 区 ， 这 样 不 仅 可 
以 避免 写 屏 障 选择 适当 缓冲 区 的 开销 ， 而 且 可 以 消除 多 线程 之 间 的 竞争 。 

一 般 情况 下 ， 向 顺序 存储 缓冲 区 中 添加 条 目 只 需要 很 少 的 指令 : 简单 地 判断 next 指针 
是 否 达 到 上 限 、 将 引用 存 人 缓冲 区 中 下 一 个 位 置 、 向 前 递增 next 指针 。MMTKk [Blackburn 
等 ，2004b] 使 用 内 存 块 链表 来 实现 顺序 存储 缓冲 区 ， 每 个 内 存 块 的 大 小 为 2 的 整数 次 震 ， 同 
时 也 依照 2 的 整数 次 震 对 齐 ， 甚 填充 方向 是 从 高 地 址 到 低地 址 。 此 时 写 屏 障 通过 判定 next 
指针 的 低位 是 否 为 零 (该 操作 通常 很 快 )， 便 可 简单 地 完成 溢出 检测 。 

有 多 种 方法 可 以 消除 显 式 溢出 检测 的 开销 ， 如 此 一 来 ， 向 顺序 缓冲 区 中 追加 条 目 所 需 的 
指令 可 以 降低 到 一 至 两 条 ， 如 算法 11.4 所 示 。 在 PowerPC 上 ， 如 果 使 用 专用 寄存 器 ， 则 该 
操作 可 以 通过 一 条 指令 完成 : stwu fid,4 (next). 


算法 11.4 ”使 用 顺序 存储 缓冲 区 来 记录 指针 


Write(src, i, ref): 


1 

2 add %src, ti *fld 

3 st ref, [%fld] ; src[i] + ref 
4 st gfld，[%next] ; SSB[next] + flad 
5 add %next, 4, next 2 next <— next + 1 
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Appel [1989a], Hudson 和 Diwan [1990] 以 及 Hosking 等 [1992] 使 用 写 保 护 哨 兵 页 
( guard page) 来 消除 显 式 溢出 检测 。 当 写 屏障 尝试 在 哨兵 页 上 添加 一 个 条 目 时 ， 陷 阱 处 理 函 
数 会 执行 适当 的 溢出 操作 ， 我 们 将 在 稍 后 详细 讨论 。 和 触发 以 及 处 理 页 保护 异常 的 开销 很 大 ， 
其 通常 会 花费 数 百 甚至 上 千 个 指令 ， 因 此 只 有 当 陷阱 很 少 被 触发 时 ， 该 策略 才 会 体现 出 效率 
上 的 优势 ， 即 陷阱 执行 开销 应 当 小 于 (大 量 ) 软件 检测 所 花费 的 开销 : 

页 保护 陷阱 的 执行 开销 < 溢出 判断 的 开销 x 缓冲 区 大 小 

Appel 将 顺序 存储 缓冲 区 保存 在 年 轻 分 代 中 ， 并 使 用 链表 来 组 织 内 存 块 ， 据 此 可 以 确保 
在 每 个 回收 周期 中 页 保护 陷阱 只 会 被 精确 地 触发 一 次 。Appel 将 哨兵 页 布置 在 年 轻 分 代 末 尾 
的 保留 空间 中 ， 因 此 任何 分 配 操作 (不 论 是 分 配对 象 还 是 记忆 集 内 存 块 ) 都 可 能 触发 陷阱 并 
呼 起 垃圾 回收 。 该 技术 要 求 年 轻 代 的 空间 必须 是 连续 的 。 某 些 系统 可 能 会 将 堆 布 置 在 数据 区 
的 末尾 ， 并 使 用 bork 系统 调用 来 扩大 (或 者 收缩 ) 堆 。 但 正如 Reppy[1993] 所 提 到 的 ， 为 堆 
末端 边界 之 外 的 页 设置 特殊 的 保护 策略 会 干扰 malloc 函数 对 brk 的 调用 ， 因 此 更 好 的 解决 
方案 是 使 用 更 高 的 地 址 空间 ， 并 使 用 mmap 来 管理 堆 的 扩展 与 收缩 。 

某 些 体系 架构 所 支持 的 特殊 机 制 也 可 以 用 于 消除 溢出 检测 。 例 如 Solaris 系统 的 UTRAP 
异常 ， 该 异常 用 于 处 理 非 对 齐 (misaligned) 数据 访问 ， 且 速度 要 比 Unix 信号 处 理 机 制 快 上 
百倍 。Detlefs 等 [2002a] 使 用 由 2" 字 节 内 存 块 组 成 的 链表 来 实现 顺序 分 配 缓冲 区 ， 每 个 内 
FHRA 2"! 字 节 对 齐 但 不 满足 2” 字 节 的 对 齐 要 求 ， 这 可 能 造成 一 定 的 空间 浪费 。 算 法 11.5 
描述 了 其 插入 流程 : next 寄存 器 通常 指向 下 一 个 条 目 之 后 4 字 节 的 位 置 ， 当 缓冲 区 被 填 满 时 
( 即 next 寄存 器 指向 2” 对 齐 边界 之 前 的 槽 ) 便 会 触发 urRae 陷阱 ， 正 如 示例 中 的 第 5 行 。 


算法 11.5 ”基于 非 对 齐 数 据 访问 实现 边界 检测 


atomic insert(fld): 


1 

2 *(next 一 4) + flad /* 在 前 一 个 槽 中 添加 条 目 */ 

3 tmp ¢ next >> (1 一 1) 

4 tmp + tmp & 6 /* tmp=4 È 6 */ 
5 


next + next + tmp 


示例 : n=4 (4 FRIE): 


insert at 32: next=40, next>>(n—1)=4, tmp=4 
insert at 36: next=44, next>>(n—1)=5, tmp=4 
insert at 40: next=48, next>>(n—1)=5, tmp=4 
insert at 44: next=54, next>>(n—1)=6, tmp=6 
insert at 50: UTRAP! 


顺序 存储 缓冲 区 可 以 直接 用 于 记忆 集 的 实现 ， 也 可 以 当 作 哈 希 表 的 快速 记录 前 端 。 对 于 
简单 的 两 分 代 且 使 用 集体 提升 策略 的 回收 器 ， 次 级 回收 完成 后 年 轻 代 将 被 清空 ， 因 而 其 可 以 
简单 地 将 记忆 集 抛 弃 ， 因 此 在 这 一 场景 下 ， 回 收 器 不 需要 更 加 复杂 的 记忆 集结 构 〈 假 设 顺序 
存储 缓冲 区 在 执行 回收 之 前 不 会 溢出 )。 但 是 ， 其 他 更 加 复杂 的 回收 器 则 需要 在 两 次 回收 之 
间 保 留 记忆 和 集 ， 如 果 使 用 多 分 代 ， 即 使 定罪 分 代 使 用 集体 提升 策略 ， 更 高 级 别 分 代 之 间 的 
分 代 间 指针 依然 需要 保留 。 如 果 定 罪 分 代 内 部 包含 阶 ， 或 者 使 用 了 其 他 延迟 提升 策略 (参见 
9.4 节 )， 则 记忆 集 依然 需要 保留 从 更 老 分 代 指向 未 提升 对 象 的 引用 。 

一 种 解决 方案 是 简单 地 将 顺序 存储 缓冲 区 中 不 再 需要 的 条 目 移 除 ， 可 以 将 该 位 置 的 指针 
清空 ， 也 可 以 将 其 指向 只 有 在 整 堆 回收 时 才 会 处 理 的 对 象 (或 者 永远 不 会 回收 的 对 象 )。 男 
外 ， 如 果 某 一 对 象 不 包含 任何 回收 相关 指针 ， 则 可 以 将 其 对 应 条 目 移 除 。 但 是 ， 这 些 解决 方 
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案 均 无 法 控制 记忆 集 的 增长 ， 且 可 能 导致 回收 器 不 断 重 复 处 理 相同 的 长 寿 条 目 。 更 好 的 解决 
方案 是 将 需要 保留 的 条 目 移动 到 各 分 代 对 应 的 记忆 集中 ， 这 些 目标 记忆 集 可 以 使 用 顺序 存储 
缓冲 来 实现 ， 也 可 将 其 转换 成 更 加 精确 的 哈 希 表 来 记录 。 


11.8.5 ”溢出 处 理 


哈 希 表 以 及 顺序 存储 缓冲 区 均 可 能 会 溢出 ， 有 多 种 方案 可 以 解决 这 一 问题 。 当 顺序 存 
储 缓冲 区 溢出 时 ，MMTK 的 解决 方案 是 分 配 一 个 新 的 内 存 块 并 将 其 链接 到 顺序 存储 缓冲 区 
中 [Blackburn 等 ，2004b]，Hosking 等 [1992] 的 策略 是 无 论 是 否 会 溢出 ， 都 将 顺序 存储 组 
冲 区 中 的 数据 转移 到 哈 希 表 中 ， 并 将 前 者 清空 。 为 保持 哈 希 表 相 对 稀疏 ， 如 果 在 插 人 一 个 
指针 时 出 现 冲 突 ， 或 者 经 历次 线性 探测 之 后 依然 冲突 ， 或 者 哈 希 表 的 使 用 率 超过 某 一 阅 
值 (例如 60%)， 则 需 将 哈 希 表 扩 大 。 扩 大 的 方式 是 增加 键 的 长 度 并 简单 地 将 哈 希 表 的 大 小 
翻 倍 ， 但 如 此 一 来 键 的 长 度 便 不 能 是 编译 常量 ， 这 将 增加 哈 希 表 的 大 小 以 及 写 屏 障 的 执行 开 
销 。Appel[1989a] 将 其 顺序 存储 缓冲 区 保存 在 堆 中 ,一旦 其 发 生 溢出 ， 则 立即 唤起 垃圾 回收 ， 
MMTKk 也 会 在 回收 器 自身 元 数据 (例如 顺序 存储 缓冲 区 ) 过 大 时 发 起 回收 。 


11.8.6 Fix 


卡 表 ( 卡 标记 ) 策略 将 堆 在 逻辑 上 划分 为 固定 大 小 的 连续 区 域 ， 每 个 区 域 称 之 为 卡 
[Sobalvarro, 1988 ; Wilson and Moher，1989a，b]。 卡 通常 较 小 ， 介 于 128 ~ $12 字 节 之 
间 。 卡 表 最 简单 的 实现 方案 是 使 用 字 节 数组 ， 并 以 卡 的 编号 作为 索引 。 当 某 个 卡 内 部 发 生 指 
针 写 操作 时 ， 写 屏障 将 该 卡 在 卡 表 中 对 应 的 字 节 设置 为 脏 (如 图 11.3 所 示 )。 卡 的 索引 号 可 
以 通过 对 指针 域 的 地 址 进行 移 位 获得 。 卡 表 的 设计 初衷 在 于 尽量 简化 写 屏 障 的 实现 并 提高 其 
性 能 ， 从 而 将 其 内 联 到 赋值 器 代码 中 。 另 外 ， 与 哈 希 表 或 者 顺序 存储 缓冲 区 不 同 ， 卡 表 不 存 
在 溢出 问题 。 但 这 些 收 益 总 是 要 付出 一 定 代价 的 : 回收 器 的 工作 负荷 会 加 重 ， 因 为 回收 器 必 
须 对 脏 卡 中 的 域 进行 逐个 扫描 ， 并 找 出 其 中 已 被 修改 的 、 可 能 包含 回收 相关 指针 的 域 ， 此 时 
回收 器 的 工作 量 将 正比 于 已 标记 卡 的 数量 (以 及 卡 的 大 小 )， 而 非 产 生 回收 相关 指针 的 写 操 
作 的 发 生 次 数 。 

使 用 卡 表 的 目的 在 于 尽 可 能 减轻 赋值 器 的 负担 ， 因 而 其 通常 应 用 在 无 条 件 写 屏 障 中 ， 这 
便 意味 着 卡 表 必须 能 够 将 所 有 可 能 被 wite 操作 修改 的 地 址 映射 到 卡 表 中 的 某 个 槽 。 如 果 我 
们 可 以 确保 堆 中 的 某 些 区 域 永 远 不 可 能 写 人 回收 相关 指针 ， 同 时 引入 条 件 检测 来 过 滤 掉 这 些 
区 域 的 指针 写 操作 ， 则 可 以 减少 卡 表 的 大 小 。 例 如 ， 如 果 将 堆 中 高 于 某 一 固定 虚拟 地 址 边界 
的 空间 用 作 新 生 区 (回收 器 在 每 次 回收 过 程 中 都 处 理 该 区 域 )， 则 卡 表 只 需要 对 低 于 该 边界 
地 址 的 空间 创建 对 应 的 槽 。 

最 紧凑 的 卡 表 实现 方式 应 当 是 位 数组 ， 但 多 种 因素 决定 了 位 数组 并 非 最 佳 实现 方案 。 现 
代 处 理 器 的 指令 集 并 不 会 针对 单个 位 的 写 人 设置 单独 的 指令 ， 因 而 位 操作 比 原 始 操作 需要 更 
多 的 指令 : 读 取 一 个 字 节 、 通 过 逻辑 运算 设置 或 清除 一 个 位 、 写 回 该 字 节 。 更 糟糕 的 是 ， 这 
些 操作 序列 并 不 是 原子 化 的 ， 多 线程 同时 更 新 则 一 个 卡 表 条 目 可 能 会 导致 某 些 信息 丢失 ， 即 
使 它们 所 修改 的 是 堆 中 不 同 的 域 或 者 对 象 。 正 因 如 此 ， 卡 表 才 通常 使 用 字 节 数组 。 由 于 处 理 
器 清空 内 存 的 指令 的 执行 速度 更 快 ， 所 以 通常 使 用 0 来 表示 “ 脏 ” 标 记 。 在 使 用 字 节 数组 的 
场景 下 ， 在 卡 表 中 设置 脏 标 记 只 需要 两 条 SPARC 指令 [Detlefs 等 ，2002a] (其 他 架构 所 需 的 
指令 可 能 会 稍 多 一 些 )， 如 算法 11.6 所 示 。 为 方便 表述 ,我 们 使 用 zero 来 代表 SPARD 寄存 
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器 sgo， 该 寄存 器 的 值 通常 为 0。BasE 寄存 器 的 值 需要 初始 化 为 crl- (H>>LOG_CARD_SIZE), 
其 中 crl 为 卡 表 的 起 始 地 址 ，# 为 堆 的 起 始 地 址 ， 两 者 均 依 照 卡 的 大 小 〈 即 512 字 节 ) 对 齐 。 
Detlefs 等 [2002a] 使 用 一 个 SPARC 本 地 寄存 器 来 作为 pass 寄存 器 ， 并 在 程序 进入 到 某 一 
可 能 执行 写 操 作 的 函数 时 设置 其 值 ， 该 寄存 器 的 值 在 函数 调用 时 的 保存 则 依赖 寄存 器 窗口 
机 制 。 
算法 11.6 SPARC 架构 下 基于 卡 表 来 记录 指针 
Write(src, i, ref): 


1 
2 add %src, %i, fld 

3 st %ref, [sf1d] ; src[i] + -ref 
4 

5 


srl %fld, LOG_CARD_SIZE, tidx ; idx + fld >> LOG_CARD_SIZE 
stb ZERO, [tBASE+%idx| ; CT[idx] + DIRTY 


Hélzle[1993] 进一步 降低 了 大 多 数 情 况 下 写 屏障 的 开销 ， 代 价 是 牺牲 了 记录 的 精度 ， 如 
算法 11.7 所 示 。 该 算法 中 ,对 卡 表 中 第 i 个 字 节 进行 标记 意味 着 从 第 i 到 第 i+ 工 个 卡 都 可 
能 被 修改 过 。 如 果 某 一 对 象 中 被 修改 的 域 在 其 内 部 的 偏 移 量 小 于 工 个 卡 ， 则 可 以 在 卡 表 中 设 
置 对 象 首 地 址 所 对 应 的 字 节 。 令 工 为 1 通常 可 以 涵盖 大 多 数 指针 写 操作 场景 ,但 数组 则 是 一 
个 例外 ， 写 屏障 必须 采用 传统 的 方式 对 其 进行 标记 。 如 果 使 用 128 字 节 的 卡 ， 则 对 于 大 小 不 
超过 32 个 字 的 对 象 ， 对 其 内 部 任意 一 个 域 的 修改 均 可 以 确保 能 将 其 首 地 址 记录 到 卡 表 中 。 


算法 11.7 SPARC 架构 下 使 用 Hblzle 的 卡 表 策略 来 记录 指针 


1 Write(src, i, ref): 

2 st %ref, [%src + $i] 

3 srl %src, LOG_CARD_SIZE, %idx /* 计算 近似 的 字 节 索引 */ 
4 clrb [%BASE + %idx] /* 清空 字 节 图 中 的 字 节 */ 


只 有 当 某 个 卡 内 部 的 最 后 一 个 对 象 所 占用 的 空间 会 延伸 到 下 一 个 卡 时 ， 才 可 能 发 生 歧 
义 ， 此 时 回收 器 可 能 还 需要 扫描 该 对 象 (或 者 该 对 象 必要 的 起 始 部 分 )。 

即使 卡 的 大 小 比较 小 ， 卡 表 所 占用 的 空间 通常 也 可 以 接受 。 例 如 在 32 位 体系 架构 下 ， 
128 字 节 的 卡 所 对 应 的 卡 表 仅 会 占用 堆 中 不 到 1% 的 空间 。 在 确定 卡 的 大 小 时 需要 在 空间 开 
销 与 回收 器 扫描 根 的 时 间 开 销 两 方面 做 出 权衡 : 增 大 卡 的 大 小 ， 尽 管 会 减少 卡 表 的 空间 开 
销 ， 但 其 精度 也 会 降低 ， 反 之 ， 相 反 。 

在 回收 阶段 ， 回 收 器 必须 在 所 有 脏 卡 中 查找 回收 相关 指针 ， 因 而 其 必须 先 对 卡 表 进 行 扫 
描 并 找 出 脏 卡 。 由 于 赋值 器 的 更 新 操作 通常 具有 较 高 的 局 部 性 ， 所 以 干净 的 卡 与 脏 卡通 常会 
出 现 聚 集 效 应 ， 回 收 器 可 以 根据 这 一 特性 来 加 速 查找 过 程 。 如 果 卡 表 使 用 字 节 数组 来 实现 ， 
则 回收 器 可 以 一 次 性 对 卡 表 中 由 4 个 或 者 8 个 槽 所 组 成 的 字 进 行 检 测 。 

如 果 分 代 回 收 器 不 使 用 集体 提升 的 策略 ， 则 在 次 级 回收 之 后 ， 某 些 年 轻 代 存活 对 象 会 留 
在 年 轻 代 里 ， 其 他 的 则 会 得 到 提升 。 如 果 得 到 提升 的 对 象 引 用 了 尚未 提升 的 对 象 ， 则 由 此 
产生 的 老 — 新 指针 不 可 避免 地 会 将 某 个 卡 打上 及 标记。 但 是 这 些 被 已 提升 对 象 所 引用 的 未 提 
升 对 象 终究 都 会 得 到 提升 ， 因 此 我 们 应 当 尽 可 能 不 去 标记 已 提升 的 对 象 所 在 的 卡 ， 否 则 在 
下 一 轮回 收 中 将 会 出 现 一 些 不 必要 的 卡 扫描 。 在 将 对 象 提升 到 某 一 干净 的 卡 时 ，Hosking 等 
[1992] 使 用 过 滤 复 制 屏 障 来 扫描 得 到 提升 的 对 象 ， 因 此 其 仅 会 在 必要 时 才 将 卡 标记 为 脏 。 

尽管 如 此 ， 如 果 堆 空间 过 大 ， 回 收 器 依然 可 能 需要 花费 大 量 时 间 来 跳 过 干净 的 卡 。 
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Detlefs 等 [2002a] 观察 发 现 ， 绝 大 多 数 卡 都 是 干净 的 ， 且 单个 卡 中 很 少 会 包含 超过 16 个 分 代 
间 指 针 。 因 此 可 以 使 用 两 级 卡 表 来 加 速 回收 器 查找 脏 卡 的 过 程 ， 尽 管 这 一 策略 会 付出 额外 的 
空间 开销 。 第 二 级 卡 占用 的 空间 更 小 ， 其 中 的 每 个 槽 对 应 2" 个 粒度 更 细 的 卡 ， 因 而 其 能 够 将 
干净 卡 的 扫描 速度 提升 n 倍 。 写 屏障 可 以 使 用 与 算法 11.6 类 似 的 技术 实现 (只 需要 额外 增加 
两 条 指令 )， 但 其 需要 确保 第 二 级 卡 表 的 起 点 与 第 一 级 对 齐 ， 即 cT1- (H>>L0G_CARD_sSIZE) =CT2- 
(H>>LOG_SUPERCARD_S1zE)°, ， 如 算法 11.8 所 示 。 这 一 要 求 可 能 会 造成 一 定 的 空间 浪费 。 


算法 11.8 SPARC 架构 中 的 两 级 卡 表 


Write(src, i, ref): 


1 

2 add %src, %i, %fld 

3 st %ref, [%f1ldl /* 执行 写 操作 */ 

4 srl %fld, LOG_CARD_SIZE, %idx /* 获取 一 级 索引 */ 

5 stb ZERO, [$BASE+%idx] /* 将 一 级 卡 标记 为 脏 */ 

6 srl %fld, LOG_SUPERCARD_SIZE, %idx /* 获取 二 级 索引 */ 

7 stb ZERO, [sBASE+%idx] /* 将 二 级 卡 标记 为 脏 */ 
11.8.7 ”跨越 映射 


在 回收 阶段 ， 回 收 器 必须 对 其 在 卡 表 中 找到 的 脏 卡 进行 处 理 ， 这 一 过 程 需要 确定 卡 中 被 
修改 的 对 象 及 对 象 内 部 被 修改 的 槽 。 扫 描 对 象 中 的 域 通常 只 能 从 对 象 的 起 始 地 址 开始 ， 但 卡 
的 起 始 地 址 却 不 一 定 会 与 对 象 的 起 始 地 址 重合 ， 因 而 扫描 过 程 并 不 能 直接 进行 。 更 加 糟糕 的 
是 ， 导 致 卡 被 标记 为 脏 的 指针 域 可 能 属于 某 一 大 对 象 ， 而 该 对 象 的 头 部 则 可 能 位 于 该 卡 之 前 
的 某 个 卡 中 〈 这 也 是 需要 对 大 对 象 进 行 分 离 存储 的 原因 之 一 )。 为 确保 回收 器 可 以 从 对 象 头 
部 开始 扫描 ， 我 们 必须 借助 于 跨越 映射 来 描述 对 象 在 卡 内 部 或 者 卡 之 间 的 布局 。 

跨越 映射 中 的 每 个 条 目 与 卡 表 中 的 卡 是 一 一 对 应 的 关系 ， 其 每 个 条 目 所 记录 的 是 对 应 卡 
中 第 一 个 起 始 地 址 落 入 该 卡 的 对 象 在 卡 中 的 偏 移 量 。 回 收 器 会 在 提升 对 象 时 设置 年 老 代 卡 所 
对 应 的 跨越 映射 条 目 ， 如 果 分 配器 直接 将 对 象 预 分 配 在 年 老 代 则 也 需 设 置 这 一 信息 。 新 生 区 
的 对 象 不 可 能 指向 更 年 轻 的 对 象 (它们 已 经 是 最 年 轻 的 对 象 )， 因 而 无 需 为 其 维护 卡 表 。 卡 
表 的 记录 方式 (记录 对 象 或 是 记录 被 修改 的 域 ) 决定 了 跨越 映射 的 设计 方式 。 

如 果 写 屏障 使 用 卡 表 来 记录 被 修改 的 指针 域 ， 则 跨越 映射 必须 记录 每 个 卡 中 最 后 一 个 
(起 始 地 址 落 入 该 卡 的 ) 对 象 的 偶 移 量 ， 如 果 任何 一 个 对 象 的 起 始 地 址 都 不 在 该 卡 中 ， 则 路 
越 映 射 必须 记录 一 个 负数 偏 移 量 。 由 于 对 象 可 能 会 跨越 多 个 卡 ， 所 以 被 修改 槽 所 属 对 象 的 
起 始 地 址 可 能 会 位 于 脏 卡 之 前 的 为 一 个 卡 中 。 例 如 在 图 11.3 中 ， 堆 中 的 白色 方 框 表 示 对 象 ， 
假设 图 中 所 描述 的 场景 是 在 32 位 环境 下 ， 且 卡 的 大 小 为 512 字 节 。 第 一 个 卡 中 最 后 一 个 对 
象 的 偏 移 量 为 408 FE (102 个 字 )， 该 值 将 会 记录 到 其 在 跨越 映射 的 对 应 的 条 目 中 。 该 对 象 
跨越 了 4 个 卡 ， 因 而 跨越 映射 中 后 面 两 个 条 目的 值 均 为 负数 。 当 堆 中 第 5 个 对 象 的 某 个 域 被 
修改 之 后 (灰色 所 示 区 域 )， 其 所 对 应 的 卡 (第 4 个 卡 ) 将 被 标记 为 脏 (黑色 区 域 )。 为 找到 
被 修改 对 象 的 起 始 地 址 ， 回 收 器 必须 从 跨越 映射 中 进行 后 退 查 找 ， 直 到 发 现 某 一 偏 移 量 非 负 
的 条 目 为 止 ( 见 算法 11.9 )。 需 要 注意 的 是 ， 负 数 表 示 需 要 后 退 的 距离 ， 当 对 象 较 大 时 ， 回 
收 器 可 以 根据 该 值 快速 找到 对 象 首 地 址 所 在 的 条 目 。 当 然 ， 系 统 也 可 以 在 这 些 条 目 中 填 人 特 
定 的 值 来 表示 倒退 ， 例 如 -1， 但 这 将 减缓 回收 顺 在 大 对 象 中 的 查找 速度 。 


O 这 两 个 值 都 需要 占用 独立 的 寄存 器 。 一 一 译 者 注 
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cree 
Fe 方 向 


跨越 映射 102 words 


扫描 方向 ee 


Ta 和 


408 bytes 200 bytes 
图 11.3 ”记录 被 修改 指针 域 的 卡 表 及 其 所 对 应 的 跨越 映射 。 图 中 有 一 个 卡 已 经 标记 为 脏 (黑色 的 卡 )， 被 
修改 的 指针 域 为 灰色 ， 跨 越 映射 记录 了 卡 中 最 后 一 个 (起 始 地 址 落 入 该 卡 的 ) 对 象 的 偏 移 量 (以 
字 为 单位 ) 


年 老 代 通常 使 用 非 移 动 式 回收 算法 进行 管理 ， 此 时 空 闪 内 存 块 与 已 分 配 内 存 块 便 会 在 堆 
中 混杂 分 布 。 在 并 行 回收 器 中 ， 为 避免 回收 过 程 中 可 能 存在 的 冲突 ， 不同 的 回收 线程 往往 会 
拥有 不 同 的 目标 提升 区 域 ， 因 此 得 到 提升 的 对 象 很 容易 形成 多 个 孤岛 ， 每 个 孤岛 之 间 都 是 较 
大 的 空闲 区 域 。 为 了 更 好 地 支持 堆 的 可 解析 性 ， 每 个 空闲 区 域 可 以 使 用 一 个 自 描 述 的 伪 对 象 
来 填充 。 但 是 ， 基 于 槽 的 跨越 映射 算法 却 更 适用 于 堆 中 对 象 排 布 比 较 密集 的 情况 : 如 果 在 两 
个 脏 卡 之 间 存 在 一 块 很 大 的 空闲 内 存 块 (例如 10MB)， 则 算法 11.9 中 search 方法 的 第 一 个 
循环 可 能 需要 迭代 数 万 次 ， 才 能 找到 用 于 描述 空闲 内 存 块 的 伪 对 象 的 头 部 。 降 低 这 一 查找 
开销 的 方法 之 一 是 在 跨越 映射 中 存储 后 退 距 离 的 对 数值 ， 即 如 果 某 个 条 目 所 记录 的 值 为 —k, 
则 意味 着 回收 器 需要 后 退 2°" 个 卡 ， 然 后 根据 新 位 置 中 所 记录 的 值 继续 执行 查找 (与 线性 后 
退 策略 相似 )。 如 果 需 要 在 大 块 空闲 内 存 的 起 始 地 址 分 配对 象 ， 回 收 器 只 需要 更 新 log(n) 个 
跨越 映射 条 目 ， 即 可 修正 跨越 映射 的 状态 ， 其 中 为 此 内 存 块 所 占据 的 卡 的 数量 。 


算法 11.9 ”基于 跨越 映射 来 查找 被 修改 槽 所 属 的 对 象 (trace 为 回收 器 的 标记 或 者 赋值 子 过 程 ) 


1 search(card): 
2 start + H + (card << LOG_CARD_SIZE) 

3 end + start + CARD_SIZE /* 下 一 个 卡 的 起 始 地 址 */ 

4 offset + crossingMap[card] 

5 while offset < 0 

6 card + card + offset /* 偏 移 量 为 负数 : 继续 后 退 */ 

7 offset + crossingMap[card] 

8 offset + CARD_SIZE 一 (offset << LOG_BYTES_IN_WORD) 

9 next + H + (card << LOG_CARD_SIZE) + offset 

10 repeat 

n trace(next, start, end) /* 对 位 于 next 处 的 对 象 进行 追踪 */ 
2 next + nextObject(next) 

13 until next > end 


Garthwaite 等 [2006] 设计 出 一 种 巧妙 的 跨越 映射 编码 方式 ， 该 策略 可 以 消除 查找 过 程 
中 的 循环 。 该 策略 中 ， 我 们 可 以 简单 地 将 跨越 映射 中 的 每 个 条 目 v 看 作 是 16 位 无 符号 整数 
(两 个 字 节 )。 表 11.3 描述 了 其 编码 策略 。 如 果 v 的 值 为 零 ， 意 味 着 其 所 对 应 的 卡 中 任何 对 象 
都 不 包含 引用 。 如 果 v 的 值 不 大 于 128， 则 该 值 表示 卡 中 第 一 个 对 象 与 卡 的 末端 之 间 的 距离 
(单位 为 字 )。 需 要 注意 的 是 ， 此 处 的 记录 方式 与 图 11.3 中 所 描述 的 记录 方式 有 所 不 同 ， 记 
录 第 一 个 对 象 而 非 最 后 一 个 对 象 的 偏 移 量 可 以 确保 回收 器 在 大 多 数 情况 下 无 须 后 退 到 前 一 个 





200 


176 #11 #Ž 


卡 。 诸 如 数组 之 类 的 大 对 象 可 能 会 跨越 多 个 卡 ， 针 对 这 一 情况 ， 大 于 256 且 小 于 等 于 384 的 
编码 值 表 示 对 象 跨越 了 两 个 或 者 更 多 个 卡 ， 当 前 卡 中 前 v- 256 个 字 属 于 该 对 象 的 末尾 ， 且 
此 空间 内 所 有 的 域 均 为 指针 域 。 引 入 这 一 范围 的 编码 值 的 好 处 在 于 ， 回 收 器 无 需 访问 对 象 的 
类 型 信息 ， 便 可 直接 判断 出 对 此 段 空 间 中 的 域 都 是 指针 域 。 但 如 果 对 象 落 入 该 卡 中 的 域 混 杂 
着 指针 域 和 非 指 针 域 ， 则 这 一 编码 方式 将 会 失效 ， 此 时 v 值 将 大 于 384， 意 味 着 回收 器 应 当 
在 跨越 映射 中 后 退 v — 384 个 条 目 并 继续 进行 查找 。 另 外 ， 如 果 对 象 横 跨 了 两 个 完整 的 跨越 
映射 槽 ， 则 可 以 在 由 这 两 个 桶 组 成 的 4 字 节 空间 中 记录 该 对 象 的 地 址 ， 该 方案 假定 跨越 映射 
中 的 每 个 条 目 占据 两 个 字 节 ， 但 如 果 使 用 S12 字 节 的 卡 ， 并 使 用 64 位 的 对 齐 方式 ， 则 仅 用 
一 个 字 节 也 可 达到 同样 的 编码 效果 。 
表 11.3 Garthwaite 等 人 的 跨越 映射 编码 方式 


值 (v) 编码 含义 
v=0 对 应 的 卡 中 不 包含 指针 
0<v < 128 卡 中 第 一 个 对 象 距 卡 的 末端 的 偏 移 量 为 v 个 字 
256 < v < 384 卡 中 前 v-256 个 字 属 于 某 一 对 象 的 末尾 ， 且 此 空间 内 所 有 的 域 均 为 指针 域 
v>384 后 退 v 一 384 个 卡 并 继续 进行 查找 
11.8.8 TAF 


某 些 分 代 回 收 器 并 不 采用 集体 提升 策略 ， 因 此 如 果 回 收 器 通过 对 脏 卡 的 扫描 发 现 了 回收 
相关 指针 但 并 未 将 其 目标 对 象 提 升 ， 则 回收 器 需要 保留 该 卡 的 脏 标 记 ， 以 便 后 续 过 程 再 次 进 
行 扫描 。 如 果 后 续 回 收 过 程 可 以 直接 获取 此 类 脏 卡 中 的 回收 相关 指针 而 不 用 再 对 卡 表 进行 扫 
描 ， 则 可 以 提升 回收 效率 。 幸 运 的 是 ， 绝 大 多 数 脏 卡 中 都 只 包含 数量 很 少 的 回收 相关 指针 ， 
因此 Hosking 和 Hudson[1993] 建议 在 完成 某 个 卡 的 扫描 之 后 将 其 中 的 回收 相关 指针 添加 到 
哈 希 表 中 ， 同 时 清除 该 卡 的 脏 标 记 。Hosking 等 [1992] 也 采用 相同 的 策略 ， 不 同 之 处 在 于 其 
使 用 的 是 顺序 存储 缓冲 区 。 

Sun 的 Java 虚拟 机 中 ， 清 扫 器 会 对 清扫 完成 后 依然 包含 回收 相关 指针 的 卡 进行 汇总 
(summarise)， 并 据 此 优化 卡 的 再 扫描 过 程 [Detlefs 等 ，2002a]。 由 于 卡 表 的 实现 方式 是 字 节 
数组 而 非 位 数组 ， 所 以 可 以 将 卡 的 状态 进一步 划分 为 “干净 ”“ 已 修改 ”"、“ 已 汇总 ”。 如 果 
回收 器 在 “已 修改 ”的 卡 中 发 现 不 多 于 大 个 回收 相关 指针 ， 则 将 该 卡 标记 为 “已 汇总 ”"， 并 
将 这 些 指 针 域 的 偏 移 量 记录 在 “汇总 表 ”(summary table) 的 对 应 条 目 中 。 如 果 卡 中 回收 相关 
指针 的 数量 大 于 (例如 k= 2)， 则 该 卡 将 依然 保持 “已 修改 “状态 ， 同 时 其 在 汇总 表 中 对 
应 的 条 目 将 被 标记 为 “已 溢出 ”。 因 此 在 下 次 回收 过 程 中 ， 回 收 器 无 需 用 路 映射 对 卡 进行 扫 
描 便 可 直接 找到 其 中 的 回收 相关 指针 (除非 该 卡 重新 被 写 屏 障 标记 为 脏 )。 男 外 ， 由 于 卡 表 
的 实现 方式 是 字 节 数组 ， 所 以 如 果 卡 相对 较 小 ， 也 可 直接 在 卡 表 中 记录 少量 的 偏 移 量 信息 。 

Reppy[1993] 在 卡 表 的 编码 中 加 入 额外 的 分 代 信 息 以 降低 扫描 开销 。 当 完成 某 个 卡 的 清 
理 后 ， 其 多 分 代 回 收 器 会 获取 该 卡 内 部 所 有 指针 域 引用 的 对 象 所 处 的 分 代 ， 并 将 其 中 最 年 轻 
分 代 的 编号 (0 代表 新 生 代 ) 记 入 汇总 卡 。 因 此 在 后 续 对 第 n 个 分 代 的 回收 过 程 中 ， 如 果 某 
个 卡 在 汇总 卡 中 的 对 应 条 目的 值 大 于 n， 则 回收 器 可 以 快速 将 其 跳 过 。 对 于 使 用 5 个 分 代 、 
卡 大 小 为 256 字 节 的 Standard ML 堆 ， 该 策略 可 以 节约 80% 的 回收 时 间 。 


11.8.9 硬件 与 虚拟 内 存 技术 
某 些 早期 的 分 代 垃 圾 回收 器 需要 依赖 操作 系统 以 及 硬件 的 支持 。 支 持 带 标签 值 (tagged 
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value) 的 硬件 架构 可 以 轻易 区 分 出 指针 与 非 指 针 ， 某 些 硬 件 写 屏 障 还 可 以 在 页 表 中 进行 置 位 
操作 [Moon，1984]。 在 没有 特殊 硬件 支持 的 条 件 下 ， 也 可 以 借助 于 操作 系统 来 实现 对 写 操 
作 的 追踪 。 例 如 Shaw[1988] 对 HP-UX 操作 系统 进行 修改 ， 并 利用 其 换 页 系统 来 达到 这 一 目 
的 。 虚 拟 内 存 管理 器 通常 需要 对 脏 页 进行 记录 ， 并 以 此 判定 在 某 一 页 被 换 出 时 是 否 需要 将 其 
写 回 到 交换 文件 (swap file). Shaw 的 修改 会 拦截 虚拟 内 存 管 理 器 的 换 页 操作 ， 并 记录 被 换 
出 的 页 的 脏 标 记 状 态 ， 他 同时 添加 了 数 个 系统 调用 来 清空 一 组 页 的 脏 标记 ,或 者 返回 自从 上 
次 回收 以 来 被 修改 的 页 集合 。 该 策略 的 优势 在 于 其 不 会 给 赋值 器 引入 任何 常规 开销 ， 但 其 缺 
点 也 十 分 明显 : 操作 系统 将 某 一 页 标记 为 脏 时 不 可 能 区 分 写 入 的 值 是 否 为 指针 ， 因 此 其 记忆 
集 的 精度 较 低 ， 同 时 换 页 陷阱 与 系统 调用 的 开销 也 不 容 忽 视 。 

为 避免 对 操作 系统 进行 修改 ，Boehm 等 [1991] 在 一 轮回 收 之 后 会 修改 已 回收 内 存 页 的 
写 保 护 策略 。 在 该 页 发 生 的 第 一 个 写 操作 会 触发 写 保护 异常 ， 陷 阱 处 理 函 数 会 设置 该 页 的 脏 
标记 ， 并 解除 该 页 的 写 保护 策略 ， 以 避免 在 下 一 轮回 收 之 前 在 该 页 重新 触发 陷阱 。 在 回收 过 
程 中 ， 回 收 器 显然 需要 解除 对 象 将 被 提升 到 的 目标 页 的 写 保护 策略 以 避免 触发 陷阱 。 页 保护 
策略 不 会 给 赋值 器 带 来 开销 ， 且 与 卡 表 类 似 ， 写 屏障 的 开销 将 正比 于 被 修改 的 页 的 数量 ， 而 
与 写 操作 的 数量 无 关 。 但 是 ， 该 策略 却 引 入 了 其 他 更 加 昂贵 的 开销 : 从 操作 系统 读 取 脏 页 信 
息 的 开销 通常 较 大 ; 页 保护 机 制 有 可 能 引发 所 谓 的 “陷阱 风暴 ”(trap storms) 问题 ， 即 在 回 
收 完 成 之 后 赋值 器 会 触发 大 量 写 保护 异常 来 解除 程序 工作 集 的 写 保护 [Kermany and Petrank, 
2006] ; 页 保护 异常 本 身 的 开销 就 不 容 忽 视 ， 如 果 其 处 理 函 数 在 用 户 空 间 执行 则 开销 更 大 ; 
操作 系统 页 通常 会 比 卡 大 得 多 ， 因 而 页 扫描 算法 需要 更 加 高 效 (或 许可 以 使 用 类 似 于 汇总 卡 
的 技术 来 提升 扫描 性 能 )。 


11.8.10” 写 屏障 相关 技术 小 结 


Hosking 等 [1992] 以 及 Fitzgerald 和 Tarditi[2000] 各 自发 现 ， 对 于 分 代 回 收 器 而 言 ， 没 
有 哪 种 记忆 集 实 现 机 制 可 以 声称 比 其 他 机 制 更 优 (但 他 们 都 没有 考虑 Sun 的 汇总 卡 技术 或 者 
类 似 技术 )。 基 于 页 保护 策略 的 记忆 集 性 能 最 差 ， 但 如 果 缺 乏 编译 器 的 支持 ， 这 可 能 是 对 写 
操作 进行 追踪 的 唯一 方式 。 对 于 卡 表 记忆 集 而 言 ， 卡 的 大 小 为 512 字 节 时 通常 性 能 最 佳 。 

Blackburn 和 Hosking [2004] 统计 了 不 同 的 分 代 间 写 屏 障 在 不 同 平台 上 的 执行 开销 。 他 
们 对 卡 标记 以 及 4 种 局 部 屏障 (partial barrier) 机 制 进行 了 研究 ， 即 边界 检测 (boundary 
test)、 日 志 检 测 (logging test), p re4 (frame comparison)、 混 合 屏障 (hybrid barrier)。 为 
了 比较 不 同 局 部 屏障 的 性 能 ， 他 们 排除 了 在 记忆 集中 插 人 元 素 的 开销 。 边 界 检测 会 判定 指 
针 是 否 跨 越 了 某 一 在 编译 期 就 已 经 确定 的 空间 边界 ; 日 志 检 测 会 判断 对 象 头 部 中 的 “日 志 ” 
域 ;， 帧 屏障 能 判断 某 一 指针 是 否 跨越 了 两 个 大 小 为 2" AVA 2" 对齐 的 空间 ,方法 是 对 指针 的 
来 源 地 址 与 目的 地 址 执行 异 或 操作 。 这 些 屏 障 技术 均 可 提升 回收 器 在 选择 定罪 空间 时 的 柔性 
[Hudson fil Moss, 1992; Blackburn 等 ，2002]。 最 后 ， 混 合 屏 障 使 用 静态 边界 检测 来 处 理 
数组 ， 而 用 日 志 检 测 来 处 理 纯 对 象 。 

他 们 得 出 的 结论 是 : 写 屏 障 的 开销 (不 包括 在 使 用 局 部 屏障 技术 时 向 记忆 集 插 人 元 
素 的 开销 ) 通常 很 小 ， 一 般 不 会 超过 程序 整体 执行 时 间 的 2%。 即 使 对 于 开销 稍 大 的 写 屏 
障 ， 其 引入 的 开销 也 很 容易 被 分 代 垃 圾 回收 器 所 带 来 的 整体 性 能 提升 所 弥补 [Blackburn 等 ， 
2004a]。 但 是 ， 写 屏障 在 不 同 的 平台 上 (Intel Pentium 4, AMD Athlon XP 以 及 PowerPC 
970) 也 会 存在 性 能 的 差异 ， 特 别 是 对 于 帧 屏障 和 卡 表 。 例 如 ， 帧 屏障 在 x86 平台 上 的 开销 
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会 明显 比 其 他 平台 要 大 ， 而 在 PowerPC 平台 上 的 开销 最 低 ; Blackburn 和 Hosking 发 现 ， 在 
x86 平台 上 进行 异 或 操作 需要 使 用 eax 寄存 器 ， 这 可 能 会 增 大 寄存 器 的 压力 。 另 外 ， 卡 标记 
在 PowerPC 平台 上 的 开销 会 比 局 部 屏障 技术 昂贵 的 多 (编译 器 生成 的 指令 序列 会 比 本 书 中 介 
绍 的 要 长 得 多 )。 最 后 ， 我 们 建议 在 选择 写 屏 障 时 一 定 要 使 用 真实 的 基准 测试 程序 ， 并 在 多 
个 硬件 平台 上 仔细 进行 实验 ， 不 同 平台 上 的 最 佳 实现 策略 可 能 会 有 所 不 同 。 


11.8.11 内存 块 链表 


数组 的 优势 在 于 其 不 需要 为 每 个 元 素 维护 链接 表 指 针 或 者 对 象 头 部 ， 且 具有 较 好 的 局 部 
性 ， 但 数组 也 会 面临 大 量 空间 都 被 浪费 的 情况 。 另 外 ， 移 动 数组 或 者 增 大 数组 的 开销 通常 很 
大 。 因 此 ， 类 似 链表 的 数据 结构 在 垃圾 回收 器 中 应 用 十 分 普遍 ， 分 代 式 回收 器 中 的 记忆 集 即 
是 这 样 一 个 例子 。 内 存 块 链表 (chunked list) 可 以 将 数组 和 链表 的 优势 相 结 合 ， 它 既 保证 了 
存储 的 密度 ， 也 无 需 进行 重新 分 配 ， 空 间 浪 费 率 以 及 运行 时 开销 也 相对 较 小 。 该 数据 结构 是 
由 内 存 块 彼此 链接 而 构成 的 ， 它 们 通常 以 双向 链表 的 形式 链接 成 双向 队列 。 每 个 内 存 块 是 由 
用 于 存储 数据 的 槽 数组 外 加 一 到 两 个 链接 指针 组 成 的 ， 如 图 11.4 所 示 。 





图 11.4 以 内 存 块 链表 方式 实现 的 栈 。 阴 影 区 的 每 个 槽 都 包含 数据 ， 每 个 内 存 块 以 2 字 节 为 边界 进行 对 齐 


该 数据 结构 还 有 一 种 十 分 优雅 的 组 织 形 式 : 我 们 可 以 令 内 存 块 的 大 小 为 2 的 整数 次 宕 ， 
即 2 ， 同 时 也 依照 2* 地 址 边界 进行 对 齐 。 如 此 一 来 ， 我 们 仅 需 要 一 个 指针 便 可 实现 内 存 块 
ERAH, HAL BRR (传统 的 实现 方案 需要 一 个 “当前 内 存 块 ”指针 外 加 当前 内 存 块 内 
部 的 迭代 索引 号 )。 算 法 11.10 展示 了 在 内 存 块 链表 中 进行 双向 遍历 的 代码 ， 其 所 使 用 的 便 
是 这 一 技术 ， 其 中 的 取 模 运算 可 以 通过 移 位 和 掩 码 操作 来 实现 。 


算法 11.10 ”内 存 块 链表 的 人 遍历 


1 /* 假设 每 个 内 存 块 的 大 小 为 2*， 同 时 也 依照 2* 地 址 边界 进行 对 齐 */ 
2 /* 假设 指针 与 楼 的 大 小 均 为 4 字 节 */ 

3 NEXT = 0 /* 指向 下 一 个 内 存 块 中 数据 起 始 地 址 的 指针 在 内 存 块 中 的 字 节 偏 移 量 */ 
4 PREV = 4 /* 指向 上 一 个 内 存 块 中 数据 未 端 地 址 的 指针 在 内 存 块 中 的 字 节 偏 移 量 */ 
5 DATA = 8 /* 数据 起 始 地 址 在 内 存 块 中 的 字 节 偏 移 量 */ 
8 


1 


bumpToNext(ptr): 
ptr + ptr + 4 
if (ptr % 2*) = 0 /* 到 达 本 内 存 块 的 末端 ... */ 
w ptr + «(ptr 一 2k + NEXT)  /* ... 将 指针 移动 到 下 一 个 内 存 块 数据 区 的 首 地 址 */ 


u return ptr 


3 bumpToPrev(ptr): 


14 ptr 4= ptr = 4 
5 if (ptr % 2*) < DATA /* 已 越过 本 内 存 块 中 数据 区 的 首 地 址 . . . */ 
16 ptr + *ptr /* ... 将 指针 移动 到 上 一 个 内 存 块 数据 区 的 末端 地 址 */ 


17 return ptr 
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内 存 块 链表 的 一 个 重要 的 使 用 场景 与 并 行 回 收 有 关 。 如 果 使 用 内 存 块 链表 来 实现 工作 队 
列 ， 则 每 个 回收 线程 便 能 够 以 内 存 块 而 非 单个 元 素 为 单位 来 获取 工作 。 如 果 内 存 块 足够 大 ， 
则 不 同 回收 线程 从 工作 队列 中 获取 工作 时 的 冲突 便 可 大 大 缓解 。 反 过 来 看 ， 如 果 内 存 块 足够 
小 ， 则 很 容易 实现 各 回收 线程 之 间 的 负载 均衡 。 内 存 块 链表 的 另 一 个 使 用 场景 是 本 地 分 配 组 
冲 区 (参见 第 7.7 节 )， 此 时 链表 中 的 每 个 内 存 块 均 为 空闲 内 存 。 


11.9 ”地 址 空间 管理 


在 前 面 的 章节 中 ， 我 们 介绍 过 多 种 算法 以 及 堆 布局 方式 ， 其 中 的 某 些 会 影响 系统 对 虚拟 
地 址 空间 的 使 用 。 某 些 算法 要 求 使 用 大 块 连续 地 址 空间 ， 或 者 在 这 一 场景 下 实现 更 为 简单 。 
在 32 位 地 址 空间 下 ， 如 果 使 用 静态 布局 方式 ， 系 统 通 常 很 难保 证 各 个 空间 的 大 小 能 够 满足 
所 有 应 用 程序 的 要 求 。 更 加 糟糕 的 是 ， 操 作 系统 有 可 能 将 动态 链接 库 (也 称 共享 对 象 文件 ) 
加 载 到 地 址 空间 的 任意 位 置 ， 造 成 空间 的 割裂 ， 从 而 进一步 增 大 了 大 块 连续 地 址 空间 的 获取 
难度 。 另 外 ， 出 于 安全 目的 ， 操 作 系 统 可 能 会 将 动态 库 加 载 在 地 址 空间 的 随机 位 置 ， 因 此 程 
序 每 次 运行 时 ， 动 态 库 的 位 置 便 会 有 所 不 同 。64 位 的 大 地 址 空间 是 这 一 问题 的 解决 方案 之 
一 ， 但 更 大 的 指针 同时 也 会 增 大 应 用 程序 所 占用 的 物理 内 存 。 

使 用 大 块 连续 地 址 空间 布局 策略 的 主要 原因 之 一 是 确保 基于 地 址 比较 的 写 屏障 的 执行 效 
率 ， 即 写 屏 障 可 以 将 指针 与 一 个 固定 地 址 或 者 另 一 个 指针 直接 进行 比较 ， 而 无 需 进行 额外 的 
查 表 操作 。 例 如 ， 如 果 将 分 代 系 统 中 的 新 生 区 布置 在 堆 空 间 的 一 端 ， 则 写 屏障 只 需 一 次 简单 
的 地 址 比较 ,， 便 可 判断 出 写 入 堆 的 指针 是 否 引用 了 位 于 新 生 区 的 对 象 。 

在 设计 一 个 新 系统 时 ， 应 当 尽量 避免 把 堆 设计 成 大 块 连续 地 址 空间 的 形式 ， 而 应 当 设计 
成 基于 帧 (frame) 的 形式 ， 或 者 至 少 允 许 在 连续 地 址 空间 中 存在 “空洞 ”。 但 不 笠 的 是 ， 这 
一 要 求 可 能 会 导致 写 屏 障 不 得 不 借助 于 查 表 操 作 。 

假设 查 表 操作 的 开销 可 以 接受 ， 则 系统 可 以 将 逻辑 地 址 空间 映射 到 可 用 虚拟 地 址 空间 ， 
从 而 能 够 管理 更 大 的 逻辑 地 址 空间 。 尽 管 该 策略 并 不 能 增加 堆 空 间 的 大 小 ， 但 其 确实 可 以 避 
免 系 统 对 地 址 空间 连续 性 的 依赖 ， 因 此 给 系统 的 设计 提供 了 一 定 的 柔性 。 该 策略 将 可 用 内 
存 划分 成 大 小 为 2 的 整数 次 短 且 依照 2 的 整数 次 竹 对 齐 的 帧 ,每 一 帧 的 大 小 通常 会 大 于 一 个 
虚拟 内 存 页 。 系 统 使 用 一 张 表 来 维护 所 有 的 帧 ， 并 以 帧 的 编号 (通常 是 帧 首 地址 的 高 位 ) 作 
为 索引 以 记录 其 逻辑 地 址 ， 各 种 面向 地 址 的 写 屏障 便 可 基于 该 表 进 行 地 址 比较 。 对 于 分 代 间 
写 屏障 ， 系 统 还 可 以 将 每 个 帧 所 处 分 代 的 编号 记录 到 表 中 。 算 法 11.11 给 出 了 此 类 写 屏障 的 
伪 代 码 ， 代 码 中 的 每 一 行 在 一 般 的 处 理 器 上 都 对 应 一 条 指令 ， 如 果 帧 表 中 的 每 个 条 目 都 对 应 
一 个 字 节 ， 则 可 以 简化 数组 的 索引 操作 。 需 要 注意 的 是 ， 即 使 ref 为 空 ， 该 算法 也 能 正常 工 
作 ， 为 达到 这 一 目的 ， 我 们 可 以 简单 地 为 地 址 为 零 的 帧 赋予 最 高 的 分 代 编号 ， 由 此 代码 在 执 
行 过 程 中 便 可 避免 对 地 址 为 零 的 帧 调用 remember 方法 。 

算法 11.11 基于 帧 的 分 代 间 写 屏障 
Write(src, i, ref): 

ct ¢ frameTableBase 

srcFrame ¢ src >>> LOG_FRAME SIZE 

refFrame + ref >>> LOG_FRAME_ SIZE 

srcGen + ct[srcFrame] 

refGen + ct[refFrame] 

if srcGen > refGen 


remember(src, &src[i], ref) 
src[i] + ref 


cen anwe enw 
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我 们 甚至 可 以 将 较 大 地 址 空间 内 的 多 块 可 用 内 存 “ 合 并 ”成 较 小 的 连续 空间 一 一 操作 系 
统 正 是 以 这 种 方式 来 为 进程 提供 虚拟 内 存 的 。 一 种 实现 策略 是 使 用 宽 地 址 并 检查 每 个 地 址 空 
间 访 问 操 作 ， 这 相当 于 是 使 用 软件 来 模拟 虚拟 内 存 管理 硬件 的 工作 ， 其 中 可 能 会 包括 软件 层 
面 实现 的 转译 后 备 缓冲 区 等 。 该 方案 的 性 能 惩罚 可 能 相当 高 ， 当 然 也 可 以 通过 对 虚拟 内 存 硬 
件 施加 影响 来 避免 惩罚 ， 第 11.10 节 将 介绍 这 方面 的 更 多 细节 。 

在 构建 系统 时 最 好 能 确保 堆 在 系统 启动 时 便 具备 迁移 能 力 。 许 多 系统 都 存在 一 个 起 始 堆 
(starting heap) 或 者 系统 映像 (system image)， 系 统 在 启动 时 便 会 加 载 它们 。 该 映像 通常 假 
定 其 自身 会 常 驻 在 某 一 特定 的 地 址 空间 中 ,但 如 果 该 地 址 已 被 动态 链接 库 所 占据 ， 则 其 加 载 
过 程 便 会 遇 到 问题 。 因 此 ， 如 果 系 统 映像 内 部 用 一 张 表 来 记录 当 自 身 被 移动 时 哪些 字 需 要 做 
出 调整 (其 实现 方案 与 许多 代码 段 的 加 载 十 分 类 似 )， 映 像 加 载 器 便 可 相对 直接 地 将 其 移动 
到 地 址 空间 中 的 其 他 位 置 。 同 理 ， 如 果 整 个 堆 或 者 部 分 堆 空间 具有 迁移 能 力 ， 也 能 提升 系统 
的 柔性 。 

在 实际 应 用 中 ， 在 进行 虚拟 内 存 管理 时 ， 我 们 可 以 仅 为 托管 系统 保留 特定 的 地 址 空间 ， 
但 并 不 要 求 操作 系统 为 其 分 配 真 正 的 内 存 页 ， 从 而 可 以 避免 操作 系统 在 运行 时 将 动态 链接 库 
映射 到 保留 地 址 空间 。 这 些 页 通常 都 是 请 求 二 进 制 零 页 。 这 一 操作 的 开销 相对 较 低 ， 但 可 能 
会 影响 操作 系统 的 资源 保留 (例如 交换 空间 )， 并 且 所 有 虚拟 内 存 映射 操作 的 开销 通常 都 比 
较 大 。 当 堆 空 间 较 大 时 ， 程 序 也 可 以 通过 提前 分 配 页 来 判定 系统 中 的 剩余 资源 是 否 足 够 ， 但 
操作 系统 在 请 求 二 进 制 零 页 真正 被 访问 之 前 通常 不 会 为 其 分 配 资源 ， 因 此 简单 地 进行 页 分 配 
可 能 会 得 出 错误 的 预 判 。 


11.10 ”虚拟 内 存 页 保护 策略 的 应 用 


垃圾 回收 系统 可 以 借助 于 虚拟 内 存 页 保护 检查 机 制 实现 多 种 检测 ， 这 一 检测 方式 在 常规 
情况 下 的 开销 很 低 甚至 没有 开销 ， 同 时 也 不 需要 在 检测 过 程 中 增加 显 式 的 条 件 分 支 。 但 是 ， 
使 用 该 方案 时 必须 考虑 陷入 页 保护 陷阱 的 开销 ， 陷 阱 处 理 函 数 需要 先 陷 入 操作 系统 再 返回 用 
户 态 ， 因 此 其 开销 可 能 相当 大 。 男 外 ， 修 改 页 保护 策略 也 会 具有 一 定 开销 ， 特 别 是 在 多 处 理 
器 环境 下 ， 因 为 系统 可 能 需要 挂 起 所 有 正在 运行 的 处 理 器 并 更 新 它们 的 内 存 页 映射 信息 。 因 
此 在 某 些 情况 下 ， 即 使 可 以 使 用 页 保护 陷阱 ， 使 用 显 式 判 断 的 开销 也 通常 更 低 [Hosking 等 ， 
1992]。 陷 阱 在 处 理 “ 不 合作 ”的 代码 时 依然 有 用 ， 因 为 除 此 之 外 ， 系 统 无 法 通过 其 他 方法 
来 实现 屏障 或 者 检测 。 

另外 一 种 需要 考虑 的 情况 是 ， 出 于 硬件 性 能 方面 的 原因 ， 内 存 页 的 大 小 在 未 来 可 能 会 进 
一 步 增 大 ， 同 时 开发 者 所 使 用 的 内 存 总 量 也 越 来 越 多 ， 系 统 的 可 映射 内 存 也 越 来 越 多 。 但 
是 ， 基 于 速度 和 能 耗 方面 的 考虑 ， 转 译 后 备 缓冲 区 的 大 小 却 不 太 可 能 进一步 增 大 。 由 于 转译 
后 备 缓冲 区 的 大 小 或 多 或 少 都 是 固定 的 ， 因 此 如 果 使 用 较 小 的 页 ， 转 译 后 备 缓冲 区 查找 不 命 
中 的 概率 就 会 增 大 ， 但 如 果 使 用 更 大 的 页 ， 某 些 虚 拟 内 存 相 关 技巧 可 能 不 再 适用 。 

我 们 假设 在 某 一 体系 架构 中 ， 页 保护 策略 包括 读 写 访问 、 只 读 访 问 、 禁 止 访问 这 三 种 。 
此 处 我 们 不 关注 可 执行 权限 ， 因 为 我 们 尚未 发 现在 垃圾 回收 技术 中 使 用 不 可 执行 保护 的 案 
例 ， 另 外 ， 某 些 平 台 可 能 不 支持 对 可 执行 权限 的 控制 。 


11.10.1 二 次 映射 
在 介绍 页 保护 策略 的 具体 应 用 之 前 ,我 们 先 描述 二 次 映射 ( double mapping) 技术 ， 系 
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统 可 以 通过 该 技术 将 相同 的 页 以 不 同 的 保护 策略 映射 到 不 同 的 虚拟 地 址 。 我 们 以 遵守 目标 空 
间 不 变 式 的 增 量 复制 回收 器 为 例 (参见 第 17 章 )。 为 阻止 赋值 器 访问 尚未 完成 处 理 的 内 存 页 
中 的 来 源 空间 指针 ， 回 收 器 可 以 将 这 些 页 的 保护 策略 设置 为 禁止 访问 ， 相 当 于 是 借助 于 硬件 
支持 高 效 地 创建 了 一 个 读 屏 障 。 但 如 此 一 来 ， 回 收 器 如 何 才能 处 理 这 些 页 ? 在 并 发 系统 中 ， 
如 果 回 收 器 解除 这 些 内 存 页 的 禁止 访问 保护 ， 则 赋值 器 可 能 会 在 回收 器 处 理 完 成 之 前 访问 到 
页 中 的 内 容 。 为 解决 这 一 问题 ， 回 收 器 可 以 将 待 处 理 页 以 读 写 访问 权限 二 次 映射 到 其 他 地 
址 ， 此 时 回收 器 便 可 基于 其 第 二 个 映射 来 进行 内 容 处 理 ， 处 理 完 成 后 ， 回 收 器 便 可 解除 该 页 
的 禁止 访问 保护 ， 并 恢复 所 有 等 待 访问 该 页 的 赋值 器 线程 的 执行 。 

当地 址 空间 较 小 时 (即便 是 32 位 在 当前 也 可 以 算 作 小 地 址 空间 )， 进 行 二 次 映射 可 能 存 
在 困难 。 一 种 解决 方案 是 fork 出 一 个 子 进 程 进行 处 理 ， 子 进程 将 以 不 同 的 页 保护 策略 来 将 
待 处 理 页 映射 到 自身 的 地 址 空间 ， 回 收 器 可 以 通过 与 父子 进程 之 间 的 通信 来 引导 子 进程 完成 
页 的 处 理 。 

需要 注意 的 是 ， 二 次 映射 技术 在 某 些 系统 中 可 能 遇 到 问题 。 如 果 高 速 缓存 依照 虚拟 地 址 
进行 索引 ， 则 可 能 出 现 潜在 的 高 速 缓存 不 一 致 问 题 ， 因 为 此 时 进行 二 次 映射 的 地 址 很 可 能 出 
现 高 速 缓存 不 一 致 问 题 。 为 避免 这 一 问题 ， 硬 件 系统 通常 不 允许 别名 条 目 〈aliased entries) 
同时 驻 留 在 高 速 缓存 中 ， 但 这 可 能 导致 额外 的 高 速 缓存 不 命中 问题 。 不 过 在 我 们 的 应 用 场景 
中 ， 赋 值 器 和 回收 器 一 般 是 在 相 邻 时 间 访 问 同 一 内 存 页 的 两 个 映射 ， 且 运行 在 同一 个 处 理 
器 上 (因此 高 速 缓存 不 命中 问题 就 不 那么 重要 一 一 译 者 注 )。 另 外 ， 如 果 系 统 使 用 倒 排 页 表 ， 
则 每 个 物理 内 存 页 在 任意 时 刻 只 能 映射 到 一 个 虚拟 地 址 上 ， 此 时 系统 便 无 法 支持 二 次 映射 。 
这 种 情况 下 ， 操 作 系统 可 以 快速 将 某 一 物理 内 存 页 的 虚拟 地 址 失效 并 将 其 与 另 一 个 虚拟 地 址 
关联 ， 但 这 可 能 引发 高 速 缓存 刷新 操作 。 


11.10.2 ”禁止 访问 页 的 应 用 


在 对 二 次 映射 的 描述 中 ， 我 们 已 经 看 到 了 禁止 访问 保护 策略 的 一 个 应 用 ， 即 无 条 件 读 屏 
障 。 该 策略 至 少 还 有 两 种 常见 的 应 用 场景 。 一 是 探测 程序 对 空 指针 〈 即 目标 地 址 为 0 的 指针 ) 
的 解 引 用 操作 ， 即 系统 将 第 0 页 (以 及 其 后 的 几 个 页 ) 设置 为 不 可 访问 页 ， 如 果 赋 值 器 尝试 
访问 空 指针 所 指向 的 域 ， 则 其 必然 会 对 不 可 访问 的 页 执行 读 或 者 写 操作 。 由 于 对 空 指针 解 引 
用 异常 的 处 理 通常 不 需要 很 快 ， 所 以 在 这 一 场景 下 使 用 禁止 访问 页 保护 策略 较为 合理 。 极 少 
情况 下 程序 会 访问 距 0 地 址 偏 移 量 较 大 的 地 址 ， 编 译 器 可 以 针对 这 一 情况 增加 显 式 检 测 。 如 
果 将 对 象 的 头 部 或 者 其 他 域 布置 在 对 象 指针 地 址 负数 偏 移 量 的 位 置 ， 则 系统 也 可 对 地 址 最 高 
的 几 个 页 做 禁止 访问 保护 (0 地 址 的 负数 偏 移 量 将 绕 回 到 最 高 地 址 一 一 译 者 注 )。 但 在 大 多 
数 系统 中 ， 高 地 址 空间 通常 会 保留 给 操作 系统 使 用 。 

禁止 访问 页 保护 策略 的 另 一 个 常见 的 应 用 场景 是 哨兵 页 (guard page)。 例如， 以 顺序 存 
储 缓冲 区 作为 实现 的 记忆 集 在 插入 新 元 素 时 需要 经 历 三 个 步骤 : 判断 缓冲 区 的 剩余 空间 是 否 
足够 、 将 新 元 素 写 入 缓冲 区 、 增 加 缓冲 区 指针 。 如 果 在 缓冲 区 的 末端 布置 一 个 禁止 访问 的 哨 
兵 页 ， 则 写 屏 障 可 以 省 去 检测 剩余 空间 以 及 调用 缓冲 区 溢出 处 理子 过 程 的 操作 。 由 于 写 屏 障 
的 调用 频率 通常 较 高 ， 且 其 代码 可 能 会 被 通 入 在 很 多 位 置 ， 因 而 哨兵 页 技术 可 以 加 速 赋 值 器 
的 执行 速度 并 减 小 代码 体积 。 

某 些 系统 使 用 相同 的 策略 来 检测 栈 或 堆 的 溢出 ， 即 在 栈 〈 堆 ) 的 末尾 布置 一 个 哨兵 页 。 
检测 栈 滋 出 的 最 佳 方式 是 在 子 过 程 开 始 执行 时 立即 尝试 访问 其 将 建立 的 新 栈 帧 的 最 远 处 。 此 
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时 一 旦 触发 哨兵 页 陷阱 ， 指 令 指针 将 位 于 一 个 事先 预定 的 位 置 ， 因 而 陷阱 处 理 函 数 可 以 通过 
重新 分 配 的 方式 增 大 栈 空 间 ， 或 者 增加 一 个 新 的 栈 分 段 并 调整 栈 帧 指针 ， 然 后 再 恢复 赋值 器 
的 执行 。 类 伏地 ， 当 使 用 顺序 分 配 缓冲 区 时 ， 分 配器 可 以 在 执行 分 配 之 前 访问 新 对 象 的 最 后 
一 个 字 , 一 旦 该 字 落 入 缓冲 区 末尾 的 哨兵 页 中 ， 分 配器 将 触发 一 个 陷阱 。 

不 论 在 哪 种 情况 下 ， 如 果 新 的 栈 帧 或 者 对 象 过 大 以 至 于 最 远 的 一 个 字 可 能 会 越过 哨兵 
页 ， 则 系统 仍 需 使 用 显 式 的 边界 检查 。 但 如 此 巨大 的 栈 帧 和 对 象 在 许多 系统 中 都 十 分 罕见 ， 
且 大 对 象 通常 会 花费 更 多 的 时 间 初 始 化 使 用 ， 这 一 开销 通常 足以 掩盖 显 式 边 界 检查 的 开销 。 

我 们 还 可 以 利用 禁止 访问 页 保护 策略 在 较 小 虚拟 地 址 空间 中 获取 较 大 的 逻辑 地 址 空间 ， 
Texas 持久 对 象 存储 [Singhal 等 ，1992] 即 是 一 个 案例 。 尽 管 该 策略 是 针对 数据 持久 化 而 设 
计 的 (程序 下 次 执行 时 ， 堆 中 的 数据 依然 保持 着 上 一 次 运行 结束 时 的 状态 ),， 但 其 所 用 到 的 
技术 也 同样 适用 于 垃圾 回收 等 非 持 久 化 场景 。 该 系统 基于 内 存 页 进行 工作 ， 每 个 页 的 大 小 与 
虚拟 内 存 页 相同 ， 或 者 是 后 者 的 2" 倍 。 系 统 通过 一 张 表 来 记录 每 个 逻辑 页 的 状态 ， 每 个 页 
不 仅 有 其 在 (虚拟 ) 内 存 中 的 地 址 ， 系 统 还 会 为 其 在 磁盘 上 维护 一 个 明确 的 托管 交换 文件 。 
每 一 页 都 可 以 有 以 下 四 种 状态 : 

© 未 分 配 (unallocated): 页 为 空 ， 尚 未 得 到 使 用 。 

e 驻 留 (resident) : 页 中 的 数据 已 经 加 载 到 内 存 ， 并 且 可 以 访问 ; 但 其 在 磁盘 上 对 应 的 

交换 文件 不 一 定 存在 。 

e 非 驻 留 (non-resident): 页 中 的 数据 在 磁盘 上 ， 无 法 直接 访问 。 

o 保留 (reserved): 页 中 的 数据 在 硬盘 上 ， 无 法 直接 访问 ， 但 已 为 其 保留 虚拟 地 址 。 

新 创建 的 页 的 初始 状态 为 “ 驻 留 ”， 且 系统 会 为 其 分 配 新 的 逻辑 地 址 〈 与 虚拟 内 存 地 址 
无 关 )。 随 着 虚拟 内 存 的 不 断 使 用 ， 某 些 页 可 能 需要 换 出 到 磁盘 。 保 存 过 程 需要 基于 页 的 逻 
辑 地 址 ， 系 统 需要 将 页 中 所 有 的 指针 转换 成 更 长 的 逻辑 地 址 ， 因 而 其 在 硬盘 中 的 存在 形式 一 
般 会 比 其 在 内 存 中 的 要 大 。 这 一 过 程 在 文献 中 被 称 为 逆转 换 ( unswizzling) [Moss, 1992], 
它 要 求 系 统 必须 能 够 准确 地 找 出 每 个 页 中 的 指针 。 在 “ 驻 留 ”页 被 换 出 后 ， 其 状态 将 变 成 
“保留 "， 系 统 进一步 将 其 对 应 的 虚拟 地 址 空间 设置 为 禁止 访问 ， 此 时 一 旦 程序 访问 被 换 出 的 
页 便 会 触发 页 保护 陷阱 ， 陷 阱 处 理 函 数 会 将 该 页 重新 载 和 内存。 

如 果 系 统 需要 复 用 “保留 ”页 的 虚拟 地 址 空间 ， 则 其 必须 确保 该 “保留 ”页 不 被 任何 “ 驻 
留 ” 页 引用 。 为 达到 这 一 目的 ， 系统 可 以 将 所 有 引用 该 页 的 “保留 ”页 换 出 ,然后 将 该 页 的 
状态 修改 为 “ 非 驻 留 "， 此 时 系统 便 可 复 用 其 地 址 空间 。 

需要 注意 的 是 ,“ 驻 留 ” 页 只 能 引用 “ 驻 留 ”页 或 者 “保留 ”页 ， 但 不 能 直接 引用 “ 非 
驻 留 ” 页 中 的 数据 。 

接 下 来 我 们 考虑 程序 在 访问 “保留 ”页 时 的 情形 〈 如 果 某 一 可 达 对 象 位 于 被 换 出 的 页 中 ， 
则 该 页 的 状态 必然 为 “保留 ” )。 系 统 通过 查 表 获 取 该 页 的 逻辑 地 址 ， 并 将 其 从 磁盘 加 载 到 
内 存 。 然 后 系统 需要 遍历 其 中 的 逻辑 地 址 ， 并 将 其 转换 成 较 短 的 虚拟 地 址 (该 过 程 称 为 指针 
转换 (pointer swizzling))。 对 于 该 页 中 指向 “ 驻 留 ” 页 或 者 “保留 ”页 中 的 引用 ， 转 换 操 作 
均 可 直接 通过 查 表 完 成 ; 但 是 ， 对 于 其 中 指向 “ 非 驻 留 ” 页 的 引用 ， 系 统 必须 先 为 目标 页 保 
留 虚 拟 地 址 (此 时 目标 页 的 状态 将 从 “ 非 驻 留 ”转变 为 “保留 ”)， 然 后 再 将 这 些 引 用 从 逻辑 
地 址 转换 为 虚拟 地 址 。 为 这 些 新 的 “保留 ”页 分 配 虚拟 地 址 可 能 需要 将 其 他 页 换 出 ， 该 操作 
可 能 进一步 将 被 换 出 页 的 状态 修改 为 “ 非 驻 留 ” 并 回收 其 虚拟 地 址 空间 。 

与 操作 系统 的 虚拟 内 存 管理 器 一 样 ，Texas 也 需要 一 种 高 效 的 换 页 策略 ， 因 此 其 可 以 理 
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所 当然 地 借鉴 虚拟 内 存 管理 的 相关 算法 。 

如 何在 垃圾 回收 环境 下 使 用 这 一 策略 ?很 显然 ， 对 一 个 比 虚 拟 地 址 空间 还 大 的 堆 进 行 整 
堆 回 收 的 开销 极 大 。 关 于 如 何 对 持久 存储 进行 回收 这 一 问题 ， 目 前 存在 这 方面 的 文献 ， 本 书 
不 打算 详细 展开 。 但 可 以 肯定 是 ， 基 于 分 区 的 回收 策略 在 该 场景 下 十 分 有 用 ， 同 时 类 似 于 成 
熟 对 象 空间 的 技术 (Mature Object Space) [Hudson and Moss, 1992] 可 以 确保 回收 的 完整 性 。 

与 Texas 相关 的 回收 技术 包括 书签 回收 器 (Bookmarking collector) [Hertz 等 ，2005 ; 
Bond 和 McKinley，2008]， 但 书签 回收 器 的 主要 目的 在 于 避免 回收 过 程 给 物理 内 存 造成 颠 
徐 ， 它 并 未 在 虚拟 地 址 之 外 引入 逻辑 地 址 。 书 签 回收 器 会 对 所 有 被 操作 系统 换 出 的 页 中 的 引 
用 进行 汇总 ， 因 此 回收 器 便 可 避免 访问 已 经 换 出 的 页 并 维持 现 有 的 工作 集合 。 与 分 代 回 收 器 
中 的 记忆 集 类 似 ， 回 收工 作 的 精确 度 可 能 有 所 下 降 ， 因 为 回收 器 可 能 会 (依照 汇总 信息 ) 对 
已 换 出 页 中 死亡 对 象 内 的 指针 进行 遍历 。 
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在 其 他 条 件 相 同 的 情况 下 ， 堆 空间 越 大 ， 则 赋值 器 的 吞吐 量 越 高 ， 垃 圾 回收 的 开销 越 
小 。 但 在 某 些 情况 下 ， 较 小 的 堆 可 能 会 提升 赋值 器 的 局 部 性 、 减 少 转译 后 备 缓冲 区 不 命中 的 
几率 ， 进 而 提升 赋值 器 吞吐 量 。 另 外 ， 如 果 堆 空间 过 大 以 至 于 物理 内 存 无 法 将 其 容纳 ， 则 程 
序 的 执行 很 容易 出 现 性 能 上 的 颠 壬 ， 特 别 是 在 垃圾 回收 过 程 中 。 因 此 ， 选 择 合 适 的 堆 空 间 大 
小 ， 甚 目的 通常 是 尽量 减少 程序 的 物理 内 存 占用 量 。“ 足 够 小 ”的 标准 通常 会 因为 运行 时 系 
统 以 及 操作 系统 而 产生 差异 ， 因 此 本 节 我 们 仅 介 绍 自 动 内 存 管理 器 调整 堆 大 小 的 几 种 策略 。 
除了 调整 堆 空间 大 小 之 外 ,减少 程序 所 占用 物理 内 存 的 策略 还 包括 将 某 些 页 换 出 到 磁盘 (如 
书签 回收 器 [Hertz 等 ，2005 ; Hertz，2006])、 将 一 些 很 少 访问 的 对 象 保存 到 磁盘 中 [Bond 
and McKinley, 2008]. 

Alonso 和 Appel [1990] 设计 出 一 种 运行 时 调整 堆 大 小 的 策略 ， 该 策略 需要 借助 于 一 个 
“通知 服务 ”来 获取 内 存 使 用 率 信 息 ， 一 般 是 通过 vmstat 等 命令 来 获取 。 在 其 为 SML 设计 
的 Appel 式 分 代 回 收 器 中 ， 每 次 整 堆 回 收 完成 后 ， 回 收 器 会 上 报 程序 所 需 的 最 小 内 存 空间 、 
当前 堆 空 间 大 小 、 距 离 上 一 次 整 堆 回 收 的 时 间 、 自 从 上 次 回收 完成 以 来 赋值 器 和 回收 絮 各 自 
占用 的 CPU 时 间 。 通 知 服务 会 据 此 计算 出 还 可 以 为 程序 增加 多 少 额 外 内 存 ， 程 序 便 可 据 此 
做 出 相应 调整 。 该 策略 的 目的 是 在 确保 其 他 进程 不 出 现 性 能 颠 艇 的 情况 下 尽量 增 大 本 进程 的 
吞吐 量 。 

与 Alonso 和 Appel 的 策略 不 同 ，Brecht 等 [2001, 2006] 无 需 借助 于 操作 系统 的 页 相 
关 信息 便 可 实现 对 Java 应 用 程序 堆 增长 的 控制 。 对 于 给 定 物理 内 存 的 系统 (他 们 所 研究 的 
是 64MB 或 128MB)， 他 们 为 该 系统 设 定 一 系列 增 量 式 的 堆 空间 阔 值 ， 从 7 到 7;， 每 个 值 
都 是 一 定 比 例 的 系统 物理 内 存 。 在 任意 时 刻 ， 进 程 堆 空间 均 为 7, 到 7 中 的 某 个 值 。 如 果 回 
收 絮 在 堆 空间 为 时 回收 所 得 的 空间 小 于 Toa T， 则 系统 将 程序 的 堆 空 间 增 大 到 7,,。 对 于 
Boehm-Demers-Weiser 回收 器 [Boehm and Weiser，1988]， 由 于 其 无 法 实现 堆 的 收缩 ， 所 以 
该 方案 将 仅 用 于 控制 堆 的 增长 。 该 策略 的 问题 在 于 ， 各 阔 值 的 选择 只 能 凭借 经 验 来 完成 ， 同 
时 该 方案 也 假定 其 所 服务 的 进程 是 系统 中 唯一 需要 关注 的 进程 。 

Cooper 等 [1992] 提出 了 一 种 将 Appel 3È SML 回收 器 的 工作 集 调 整 到 指定 大 小 的 策略 ， 
该 回收 器 工作 在 Mach 操作 系统 下 。 他 们 通过 调整 新 生 代 大 小 的 方式 来 阻止 工作 集 的 增 大 ， 
除 此 之 外 他 们 还 使 用 了 两 种 Mach 平台 特有 的 技术 。 一 种 技术 是 使 用 较 大 的 稀疏 地 址 空间 ， 
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并 避免 将 存活 对 象 复制 到 更 低 的 地 址 空间 ， 从 而 进一步 避免 触 达 地 址 空间 的 末端 。 尽 管 该 技 
术 并 不 会 影响 推 空间 大 小 ， 但 它 的确 可 以 降低 回收 时 间 。 另 一 种 Mach 平台 特有 的 技术 是 回 
收 器 可 以 通知 Mach 页 管理 器 直接 将 某 一 来 源 空间 页 丢弃 ， 而 不 必 将 其 换 出 ， 如 果 程 序 再 次 
访问 该 页 ， 则 系统 会 在 该 页 原 有 的 地 址 空间 中 映射 新 的 页 ， 但 页 中 的 内 容 却 可 能 是 任意 的 内 
容 ， 分 配器 有 必要 将 其 清 零 。 他 们 在 一 组 小 型 基准 程序 套件 上 进行 测试 ， 并 在 时 间 上 取得 四 
倍 的 提升 ， 其 中 一 半 的 提升 效果 都 来 自 于 堆 大 小 的 调整 。 但 是 ， 目 标 工作 集合 的 大 小 仍 需要 
用 户 来 决定 。 

Yang 等 [2004] 对 原版 UNIX 内 核 进 行 修改 并 增加 了 一 个 系统 调用 ， 应 用 程序 可 以 通过 
该 系统 调用 来 判断 在 不 造成 系统 颠 复 的 情况 下 本 程序 的 工作 集 还 能 增 大 多 少 ， 或 者 为 避免 系 
统 颠 化 ， 其 工作 集 应 当 减 小 多 少 。 他 们 对 垃圾 回收 器 进行 修改 ， 以 便利 用 这 一 信息 来 调整 堆 
空间 大 小 。 他 们 认为 ， 当 其 他 进程 的 内 存 使 用 率 发 生变 化 时 ， 回 收 需 对 当前 进程 的 堆 空 间 
做 适应 性 调整 以 达到 最 佳 性 能 ， 并 论证 了 这 一 操作 的 重要 性 。 他 们 引入 了 程序 的 空间 占用 
量 (footprint) 这 一 概念 ， 即 为 避免 程序 的 运行 时 间 增 大 某 一 特定 的 比值 上 (通常 为 5% 或 者 
10%) 所 需 的 物理 内 存 页 的 数量 。 在 使 用 垃圾 回收 的 程序 中 ,空间 占用 量 取决 于 堆 的 大 小 ， 
而 对 于 复制 式 回收 器 ， 空 间 占 用 量 还 取决 于 整 堆 回收 的 存活 率 ， 即 存活 对 象 的 总 体 大 小 。 他 
们 所 得 出 的 观察 结论 与 Alonso 和 Appel 并 无 二 致 ， 即 核心 关系 在 于 当 堆 大 小 发 生变 化 时 空 
间 占 用 量 会 发 生 怎样 的 变化 。 对 于 特定 的 回收 算法 ， 这 一 关系 通常 都 是 线性 的 ， 即 两 者 的 比 
值 取决 于 选 定 的 回收 算法 ， 例 如 标记 -清扫 回收 器 的 比值 为 1， 复 制式 回收 器 的 比值 为 2。 

Grzegorczyk 等 [2007] 利用 标准 UNIX 内 核 所 提供 的 换 页 相关 信息 来 调整 堆 空 间 大 小 。 
他 们 重点 关注 页 换 出 行为 、 内 核 交 换 守 护 进程 写 人 交换 分 区 的 页 数量 、 缺 页 异常 、 被 引用 页 
不 命中 时 需要 从 磁盘 中 加 载 的 页 数量 、 分 配 延 迟 、 进 程 在 尝试 获取 新 页 时 的 等 待 时 间 。 这 些 
统计 信息 全 部 都 与 特定 进程 的 行为 相关 : 换 页 行为 所 涉及 的 是 该 进程 所 占用 的 物理 内 存 页 ， 
缺 页 异常 与 分 配 延迟 也 都 是 由 进程 本 身 的 行为 导致 的 。 这 三 个 指标 可 能 预示 着 系统 所 使 用 的 
内 存 过 多 ， 如 果 进 行 堆 空 间 收 缩 可 能 会 令 情况 有 所 好 转 。 他 们 发 现 分 配 延 迟 是 这 些 因素 中 最 
好 的 指示 因素 。 当 回收 器 发 现 分 配 过 程 几 乎 不 存在 延迟 时 ， 它 可 以 将 扒 空 间 在 用 户 指定 的 推 
大 小 上 增 大 2% (2% ~ 5% 的 调整 比例 所 达到 的 结果 都 是 相似 的 )。 当 回收 器 感知 到 分 内 配 
延迟 时 ， 它 可 以 收缩 年 轻 代 ， 从 而 将 包括 年 轻 代 复制 保留 区 在 内 的 整个 堆 空 间 恢 复 到 最 后 一 
次 不 发 生 分 配 延迟 的 状态 。 该 操作 最 多 会 将 年 轻 代 的 空间 收缩 50%。 当 进程 不 存在 内 存 压力 
时 ， 是 否 引 入 该 策略 并 不 会 对 进程 的 性 能 造成 (正面 或 负面 ) 影响 ， 而 当 进 程 存在 内 存 压力 
时 ， 该 策略 能 够 确保 进程 的 性 能 接近 于 不 存在 内 存 压 力 时 的 状态 ， 相 比 之 下 ， 未 经 调整 的 基 
准 系统 则 会 出 现 显著 的 性 能 下 降 。 

到 目前 为 止 ， 我 们 所 讨论 的 策略 都 只 关注 对 单个 进程 所 使 用 内 存 进行 动态 调整 ， 这 些 策 
略 相当 于 是 在 给 定时 间 点 对 系统 内 部 的 内 存 使 用 状态 做 出 响应 。 另 一 方面 ， 如 果 要 执行 的 程 
序 集合 事先 已 知 且 不 会 改变 ， 则 通过 Hertz 等 [2009] 的 策略 可 以 预先 计算 出 每 个 程序 的 最 佳 
堆 空 间 大 小 。 该 策略 中 ,“ 最 佳 ”意味 着 “最 少 的 整体 执行 时 间 ”， 也 可 理解 为 “最 高 的 整体 
吞吐 量 ”。 在 执行 阶段 ， 其 Poor Richard 内 存 管理 器 会 观察 每 个 进程 最 近 的 缺 页 异常 数 以 及 
驻 留 集合 大 小 。 如 果 缺 页 异常 在 某 个 时 间 增 量 内 发 生 的 次 数 远大 于 上 一 个 时 间 增 量 内 的 发 生 
次 数 (它们 的 差 值 超 过 某 一 靖 值 )， 则 回收 器 会 发 起 整 堆 回收 以 减少 工作 集 的 大 小 。 类 似 地 ， 
如 果 驻 留 集合 减少 ( 即 工作 集合 变 得 稀 朴 一 一 译 者 注 )， 也 会 触发 整 堆 回收 。 最 终 系统 中 的 
各 个 进程 会 通过 堆 空 间 的 充分 竞争 而 达到 最 佳 整体 吞吐 量 。 
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Zhang 等 [2006] 所 提出 的 动态 堆 大 小 调整 机 制 与 Hertz 等 [2009] 的 策略 在 思想 上 是 类 似 
的 ， 但 在 其 方案 中 ， 进 程 自 身 可 以 检测 每 次 回收 过 程 中 缺 页 异常 的 数量 并 自主 调整 堆 大 小 ， 
从 而 无 需 将 这 一 机 制 构建 在 回收 器 中 。 与 我 们 所 介绍 的 其 他 机 制 不 同 ， 他 们 假设 开发 者 或 多 
或 少 都 能 够 确定 程序 执行 的 各 个 阶段 ， 并 且 会 在 阶段 发 生变 化 时 强制 呼 起 垃圾 回收 。 他 们 表 
示 ， 相 比 于 将 堆 空 间 大 小 固定 的 策略 ,动态 自 适应 堆 调 整 策略 可 以 显著 提升 程序 的 性 能 。 


11.12 需要 考虑 的 问题 


内 存 分 配 接 口 给 系统 的 实现 者 提出 了 一 系列 必须 回答 的 问题 。 某 些 问题 的 答案 取决 于 
编程 语言 的 特定 语义 ,或 者 运行 环境 所 要 求 的 并 发 级 别 ( 即 对 象 是 否 会 从 其 诞生 的 线程 “ 沪 
漏 ”)。 其 他 问题 的 管 案 则 可 以 具有 一 定 的 灵活 性 ， 系 统 的 实现 者 可 能 会 以 提升 运行 时 系统 
的 性 能 或 者 鲁 棒 性 为 目的 来 给 出 自己 的 解答 。 

我 们 需要 考虑 分 配 过 程 以 及 初始 化 过 程 必须 满足 哪些 要 求 : 编程 语言 运行 时 的 工作 是 仅 
需要 分 配 足 够 大 小 的 空间 ， 还 是 在 对 象 可 以 使 用 之 前 必须 初始 化 其 头 部 的 某 些 域 ? 是 否 需 要 
为 对 象 内 部 的 每 个 域 都 提供 初始 值 ? 对 象 的 字 节 对 齐 要 求 是 什么 ”运行 时 系统 是 否 需 要 区 分 
不 同类 别 (kind) 的 对 象 (例如 将 数组 与 其 他 对 象 区 分 ) ? 是 否 应 该 对 不 包含 指针 的 对 象 进 
行 区 别 对 待 ?” 回收 器 无 需 对 不 包含 指针 的 对 象 进行 扫描 ， 因 而 将 其 区 分 对 待 有 助 于 提升 追踪 
性 能 。 事 实证 明 ， 避 免 对 此 类 对 象 进行 扫描 可 以 显著 提升 保守 式 回 收 器 的 性 能 。 

我 们 通常 会 仔细 考虑 分 配 过 程 中 的 哪些 代码 序列 应 当 内 联 。 我 们 通常 应 将 快速 路 径 而 非 
慢 速 路 径 内 联 ， 所 谓 快速 路 径 即 所 需 工 作 量 最 小 的 分 配方 式 ， 而 慢 速 路 径 则 通常 需要 从 更 底 
层 的 内 存 分 配器 中 获取 空间 ， 甚 至 有 可 能 呼 起 垃圾 回收 器 。 但 需 注意 的 是 ， 过 度 内 联 会 增 大 
代码 体积 ， 甚 至 有 可 能 产生 负面 效应 。 为 提升 效率 ， 系 统 甚至 可 以 将 某 一 寄存 器 专门 用 于 特 
殊 用 途 ， 例 如 顺序 分 配 中 的 阶 牙 指针。 但 在 寄存 器 数量 较 少 的 平台 上 ， 这 一 策略 可 能 会 给 寄 
存 器 分 配 需 造成 较 大 压力 。 

在 某 些 语言 中 ， 出 于 安全 性 考虑 或 者 调试 原因 ， 运 行 时 系统 可 能 需要 将 内 存 清 零 。 系 统 
可 以 在 分 配对 象 时 将 其 空间 清 零 ， 但 使 用 高 度 优 化 的 库 函数 对 大 块 内 存 进行 清 零 更 加 高 效 。 
在 赋值 器 即将 使 用 某 一 内 存 之 前 将 内 存 清 零 可 以 获取 最 佳 的 高 速 缓存 性 能 ， 而 如 果 在 内 存 被 
释放 之 后 立即 将 其 清 零 则 有 助 于 调试 (在 对 象 占 用 的 空间 中 写 入 特殊 值 可 能 效果 更 佳 )。 

回收 器 需要 通过 指针 查找 来 确定 对 象 的 可 达 性 。 运 行 时 系统 提供 给 回收 器 的 指针 信息 可 
以 是 精确 的 ， 也 可 以 是 保守 的 ， 除 此 之 外 还 可 以 将 两 者 结合 ， 即 线程 栈 中 的 指针 信息 是 保守 
的 ， 而 堆 中 的 指针 信息 则 是 精确 的 。 保 守 式 指针 查找 的 实现 较为 简单 ， 但 它 却 增 加 了 内 存 汇 
漏 的 风险 ， 同 时 其 性 能 会 比 类 型 精确 的 回收 策略 要 差 。 栈 中 指针 的 查找 会 给 类 型 精确 回收 需 
的 设计 带 来 一 定 挑战 ， 特 别 是 当 栈 中 包含 混合 帧 类 型 (经 优化 的 与 未 经 优化 的 子 过 程 、 本 地 
代码 帧 、 桥 接 (bridging) 帧 ) 时 。 但 在 另 一 方面 ， 通 过 栈 扫描 的 方式 查找 指针 限制 了 回收 算 
法 的 选择 ” ， 因 为 此 时 直接 被 栈 引用 的 对 象 将 无 法 移动 。 

系统 通常 会 使 用 栈 映 射 来 确定 某 一 返回 地 址 位 于 哪个 函数 内 部 。 多 态 函 数 以 及 特定 的 语 
言 设计 (例如 Java 的 jsr 字 节 码 ) 会 导致 栈 映 射 的 复杂 化 。 实 现 者 还 必须 决定 在 何 时 生成 栈 
映射 以 及 何 时 可 以 使 用 使 用 栈 映 射 : 是 应 当 提前 生成 ， 还 是 应 当 采 用 懒惰 生成 策略 以 节省 空 
间 ? 每 个 栈 映 射 是 否 只 在 特定 的 安全 回收 点 有 效 ” 栈 映 射 可 能 会 很 大 ， 因 此 如 何 才能 将 其 压 


O 即 回收 器 必须 使 用 保守 式 指针 查找 策略 来 查找 栈 上 指针 。 一 一 译 者 注 


186 # 1# 


缩 (特别 是 当 要 求 栈 映射 对 于 每 条 指令 都 有 效 时 ) ? 栈 扫描 的 实现 还 与 一 些 其 他 问题 相关 ， 
即 栈 扫描 过 程 是 完整 的 、 原 子 性 的 ， 还 是 增 量 式 的 。 尽 管 增 量 栈 扫 描 更 加 复杂 ， 但 它 具 有 两 
个 优点 : 第 一 ， 每 个 增 量 中 的 扫描 工作 量 可 以 得 到 限制 (这 对 于 实时 回收 器 十 分 重要 ); 第 二 ， 
如 果 可 以 获知 栈 中 的 哪些 部 分 在 上 次 栈 扫描 之 后 未 发 生变 化 ， 则 我 们 可 以 降低 回收 器 需要 完 
成 的 工作 量 。 

编程 语言 的 特定 语义 以 及 编译 右 优 化 会 进一步 提升 指针 查找 的 复杂 度 。 如 何 处 理 内 部 指 
针 与 派生 指针 ? 编程 语言 可 能 允许 赋值 器 访问 托管 环境 之 外 的 对 象 ， 它 们 通常 是 使 用 C/C++ 
开发 的 ， 除 此 之 外 ， 每 种 编程 语言 的 输入 / 输出 都 需要 与 操作 系统 进行 交互 。 因 此 ， 运 行 时 
系统 就 必须 确保 对 象 在 被 外 部 代码 使 用 时 不 会 得 到 回收 。 相 关 解 决 方案 通常 包括 : 将 此 类 对 
象 钉 住 或 者 要 求 外 部 代码 使 用 句柄 来 访问 它们 。 

某 些 系统 可 能 允许 垃圾 回收 过 程 发 生 在 程序 的 任意 位 置 ， 但 如 果 可 以 将 垃圾 回收 的 发 生 
位 置 限 定 在 特定 的 安全 回收 点 ,一般 可 以 简化 系统 的 设计 。 安 全 回收 点 通常 包括 分 配 函 数 、 
后 退 分 支 、 函 数 的 人 口 以 及 返回 位 置 。 有 多 种 方式 可 以 将 线程 挂 起 在 安全 回收 点 : 一 种 策略 
是 通过 一 个 全 局 旗 标 来 反映 当前 是 否 需 要 垃圾 回收 ， 每 个 线程 通过 轮 询 的 方式 来 检测 该 旗 
标 ; 男 一 种 策略 是 对 正在 执行 的 线程 的 代码 “ 打 补 丁 ”"， 并 引导 其 挂 起 在 下 一 个 安全 回收 点 。 
回收 器 和 赋值 器 线程 之 间 的 握手 方式 包括 令 线程 检 查 某 一 线程 局 部 变量 、 在 被 挂 起 线程 保存 
的 上 下 文中 设置 处 理 器 条 件 码 、 劫 持 函 数 返 回 地 址 、 通 过 操作 系统 信号 。 

许多 回收 算法 都 要 求 赋值 器 在 执行 过 程 中 记录 回收 相关 指针 ， 为 此 ， 研 究 者 们 设计 并 实 
现 了 多 种 策略 ， 以 探测 并 记录 回收 相关 指针 。 屏 障 操 作 通常 十 分 普遍 ， 因 而 尽量 将 其 引入 
的 开销 最 小 化 便 显得 十 分 重要 。 屏 障 既 可 以 是 由 编译 器 插入 在 指针 加 载 或 者 存储 操作 之 前 的 
一 小 段 代码 序列 ， 也 可 以 借助 于 操作 系统 来 实现 ,例如 页 保护 陷阱 。 屏 障 的 设计 依然 需要 对 
多 种 因素 进行 权衡 ， 包 括 赋值 器 开销 与 回收 器 开销 之 间 的 平衡 、 屏 障 的 精度 与 速度 之 间 的 平 
衡 。 我 们 通常 更 倾向 于 让 执行 频率 相对 较 低 的 回收 相关 操作 (例如 查找 程序 的 根 ) 来 承担 更 
多 工作 ， 从 而 尽量 保证 执行 频率 更 高 的 赋值 器 操作 (例如 针对 堆 中 对 象 的 写 操作 ) 的 性 能 。 
写 屏 障 可 能 会 导致 指针 写 操作 的 指令 翻 倍 甚至 更 多 ， 但 这 一 开销 通常 会 被 高 速 缓存 不 命中 所 

= 

对 回收 相关 指针 的 记录 应 当 达 到 何 种 精度 ? 将 回收 无 关 指 针 过 滤 掉 后 精度 可 能 更 高 ， 但 
无 条 件 记录 被 修改 指针 给 赋值 器 引入 的 开销 更 小 。 记 忆 集 的 实现 方式 决定 了 记录 的 精度 。 指 
针 过 滤 代 码 应 当 内 联 到 何 种 程度 ”这 需要 精细 地 进行 调整 。 指 针 位置 的 记录 应 当 达 到 何 种 粒 
BE? 我 们 是 应 当 记录 被 修改 的 域 ， 还 是 其 所 在 的 对 象 ， 还 是 其 所 在 的 卡 或 者 页 ? 是 否 人 允许 记 
忆 集 包含 重复 对 象 ? 数组 与 非 数 组 是 否 应 以 相同 的 方式 处 理 ? 

应 当 使 用 哪 种 数据 结构 来 记录 回收 相关 指针 ? 哈 希 表 、 顺 序 存储 缓冲 区 、 卡 表 ， 还 是 综 
合 这 些 数据 结构 ? 所 选择 的 数据 结构 分 别 会 给 赋值 器 和 回收 器 带 来 怎样 的 开销 ? 如何 安 全 且 
高 效 地 处 理 数据 结构 可 能 发 生 的 溢出 ” 卡 表 是 一 种 不 甚 精 确 的 记录 方式 ， 回 收 器 在 回收 阶段 
必须 对 其 进行 扫描 并 找 出 脏 卡 ， 然 后 再 进一步 找 出 包含 回收 相关 指针 的 对 象 。 这 一 过 程 中 有 
几 个 性 能 相关 问题 需要 注意 : 卡 的 大 小 应 该 设置 为 多 大 ? 卡 表 通 常 比 较 稀 疏 ， 如 何 才能 加 速 
其 中 脏 卡 的 查找 ? 是否 需 要 使 用 两 级 卡 表 ? 是 否 可 以 对 卡 进行 汇总 (例如 当 卡 中 只 包含 一 个 
被 修改 域 或 者 对 象 时 ) ? 当 回 收 器 找到 脏 卡 时 ， 它 必须 定位 出 该 卡 中 的 第 一 个 对 象 ， 但 是 该 
对 象 的 起 始 地 址 却 可 能 位 于 更 靠 前 的 卡 中 ， 因 此 我 们 需要 借助 于 跨越 映射 来 查找 跨越 多 个 卡 
的 对 象 。 卡 标记 会 与 多 处 理 器 高 速 缓存 一 致 性 协议 产生 怎样 的 相互 影响 ”如 果 两 个 处 理 吉 不 
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断 对 位 于 同一 个 卡 上 的 对 象 进行 写 操作 ， 它 们 都 需要 以 独占 方式 访问 卡 所 在 的 高 速 缓存 行 ， 
这 样 是 否 会 产生 高 速 缓存 冲突 ? 在 实际 环境 中 ， 这 是 否 可 能 会 成 为 问题 ? 

在 使 用 虚拟 内 存 的 系统 中 ， 基 于 垃圾 回收 的 应 用 应 当 能 够 根据 真正 可 用 的 内 存 进行 自 适 
应 调整 ， 这 一 点 十 分 重要 。 与 非 托 管 程序 不 同 ， 垃 圾 回收 系统 可 以 通过 调整 堆 大 小 的 方式 
来 更 好 地 适应 可 用 内 存 。 回 收 器 可 以 利用 操作 系统 所 提供 的 哪些 事件 以 及 统计 信息 来 调整 堆 
空间 大 小 ? 这 些 事件 或 者 信息 中 的 哪些 最 高 效 ?” 如 何 才能 设计 出 一 种 较 好 的 堆 增 长 策略 ? 如 
果 堆 可 以 收缩 ， 那 么 如 何 进行 收缩 更 加 合理 ?多 个 基于 垃圾 回收 的 程序 彼此 之 间 如 何 进行 协 
作 ， 才 能 达到 较 高 的 整体 吞吐 量 ? 

综 上 所 述 ， 垃 圾 回收 的 许多 细节 问题 都 比较 琐碎 ， 但 它们 却 会 在 性 能 方面 显著 地 影响 
系统 的 设计 和 实现 。 后 续 章 节 中 ， 我 们 将 看 到 本 章 所 描述 的 技术 在 垃圾 回收 算法 中 的 具体 
应 用 。 
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特定 语言 相关 内 容 


许多 编程 语言 都 具备 垃圾 回收 能 力 ， 因 此 开发 者 们 自然 希望 将 这 一 能 力 拓展 到 自动 内 存 
管理 之 外 的 更 多 场景 。 在 这 一 思想 的 指导 下 ， 研 究 者 们 发 展 出 了 多 种 在 应 用 程序 和 回收 器 之 
间 进 行 交 互 的 方式 ， 这 些 交 互 方式 拓展 了 编程 语言 的 基本 内 存 管理 语义 。 例 如 ， 应 用 程序 可 
能 希望 在 对 象 即将 被 回收 或 者 已 经 被 回收 后 得 到 一 些 通知 ， 或 者 执行 一 些 额外 操作 ， 我 们 将 
在 12.1 节 讨 论 这 种 终结 (finalisation) 机 制 。 男 外 ， 某 些 情况 下 我 们 不 希望 某 个 引用 会 对 其 
目标 对 象 的 存活 性 产生 影响 ， 我 们 将 在 12.2 节 讨 论 这 种 弱 指 针 (weak pointer) 机 制 。 


12.1 终结 


ES SA 


使 用 垃圾 回收 器 进行 自动 内 存 管理 可 以 为 大 多 数 对 象 提供 合适 的 内 存 管理 语义 。 但 是 ， 
如 果 托 管 对 象 引 用 了 托管 范围 之 外 的 其 他 对 象 ， 自 动 垃圾 回收 器 将 无 能 为 力 ， 进 而 可 能 导致 
资源 的 泄漏 。 一 个 典型 的 案例 是 程序 所 打开 的 文件 : 操作 系统 接口 通常 会 以 一 个 被 称 为 “ 文 
件 描述 符 ” 的 小 整数 来 表示 一 个 文件 ， 该 接口 限制 了 给 定 进程 在 同一 时 刻 可 以 打开 的 最 大 文 
件数 量 。 编 程 语 言 通常 会 将 每 个 打开 的 文件 封装 成 对 象 ， 以 供 开发 者 管理 文件 流 。 大 多 数 情 
况 下 ， 当 程序 完成 某 一 文件 流 的 处 理 之 后 ， 开 发 者 可 以 通过 运行 时 系统 来 关闭 文件 流 ， 后 者 
会 调用 操作 系统 接口 来 关闭 对 应 的 文件 描述 符 ， 以 便 将 其 复 用 。 

但 是 ， 如 果 文 件 流 被 程序 中 的 多 个 组 件 共享 ,运行 时 系统 将 很 难 确定 在 何 时 所 有 组 件 都 


能 完成 文件 流 的 处 理 。 如 果 使 用 某 一 文件 流 
的 每 个 组 件 在 使 用 完毕 后 都 将 指向 文件 流 的 Duena, 
引用 置 空 ， 则 当 该 文件 流 对 象 不 再 被 任何 组 c L] 


件 引用 时 ， 回 收 器 (终究 ) 会 探测 到 这 一 情 
况 。 图 12.1 展示 了 这 一 状态 ， 我 们 或 许可 
ileStream 
以 借助 于 回收 器 来 实现 文件 描述 符 的 关闭 。 一 一 
为 达到 这 一 目的 ， 我 们 需要 在 给 定 对 象 
不 可 达 之 后 执行 用 户 自 定义 的 行为 一 更 加 RRR 
确切 地 讲 ， 应 该 是 对 象 不 再 从 赋值 器 可 达 。 已 打开 的 文件 的 列表 


0 
时 。 我 们 将 这 一 过 程 称 为 终结 。 典 型 的 终结 Eam — 
机 人 制 多 许 用 户 指定 一 段 代码 ， 即 终结 方法 < 





(finaliser)， 回 收 器 在 判定 特定 对 象 不 可 达 ef 
时 将 调用 该 方法 。 终 结 机 制 的 典型 实现 方式 图 12.1 资源 泄漏 。Filestream 对 象 已 经 不 可 达 ， 
是 由 运行 时 系统 维护 一 张 特殊 的 终结 表 ， 访 i i tala 


表 中 所 记录 的 是 包含 (由 开发 者 指定 的 ) 终结 方法 的 对 象 。 赋 值 器 无 法 访问 到 该 表 但 回收 需 
可 以 。 我 们 将 从 终结 表 可 达 但 从 赋值 器 不 可 达 的 对 象 称 为 终结 可 达 (finaliser-reachable) 对 
象 。 图 12.2 展示 的 情况 与 图 12.1 一 致 ， 唯 一 的 不 同 之 处 在 于 其 增加 了 终结 方法 。 由 于 应 用 
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程序 可 能 提前 关闭 文件 ， 所 以 终结 方法 在 关闭 文件 描述 符 之 前 应 当 进 行 条 件 判断 。 


i 
能 力 的 应 用 程序 pa 


包含 终结 方法 
的 对 象 表 






FileStream 


已 打开 的 
= SCRAPE. 
af 


图 12.2 使 用 终结 方法 来 释放 资源 ， 不 可 达 的 Filestream 对 象 通过 终结 方法 来 关闭 描述 符 


在 引用 计数 系统 中 ， 回 收 吉 可 以 在 释放 对 象 之 前 查找 终结 表 ， 并 判断 该 对 象 是 否 需 要 终 
结 ， 如 果 需 要 ， 则 回收 器 执行 终结 方法 ， 并 将 其 从 终结 表 中 移 除 。 类 似 地 ， 追 踪 式 回收 系统 
也 可 以 在 追踪 阶段 完成 之 后 检查 终结 表 ， 找 出 其 中 的 未 标记 对 象 并 执行 终结 方法 ， 然 后 将 其 
从 终结 表 中 移 除 。 

终结 机 制 有 多 种 不 同 的 实现 策略 ， 它 们 之 间 会 存在 一 些 细微 的 差别 ， 接 下 来 我 们 将 介绍 
终结 机 制 的 实现 方式 以 及 可 能 遇 到 的 问题 。 


12.1.1 何 时 调用 终结 方法 


终结 方法 应 在 何 时 调用 ? 一 种 实现 策略 是 : 一 旦 回收 器 发 现 需要 终结 的 不 可 达 对 象 ， 便 
立即 调用 其 终结 方法 。 但 该 策略 的 问题 在 于 ， 回 收 的 中 间 状 态 可 能 无 法 执行 一 般 用 户 代码 ， 
例如 此 时 可 能 无 法 进行 新 对 象 的 分 配 。 因 此 ， 大 多 数 终结 机 人 制 都 在 回收 过 程 之 后 才 调 用 终结 
方法 。 回 收 器 可 以 使 用 队列 来 组 织 待 终结 对 象 。 为 避免 在 回收 过 程 中 分 配 这 一 队列 ， 回 收 器 
可 以 将 终结 表 划 分 为 两 个 分 区 ， 一 个 分 区 用 于 容纳 待 终结 对 象 ， 另 一 个 则 用 于 记录 包含 终结 
方法 但 尚未 入 队 ( 即 依然 存活 一 一 译 者 注 ) 的 对 象 。 当 回收 器 需要 将 某 一 对 象 加 入 待 终结 队 
列 时 ， 它 只 需要 将 该 对 象 移动 到 终结 表 的 待 终结 分 区 。 一 种 简单 但 稍 显 低 效 的 方案 是 为 终结 
表 中 的 每 个 对 象 关 联 一 个 待 终结 位 ， 此 时 回收 器 就 需要 通过 扫描 终结 表 来 找到 待 终结 对 象 。 
为 避免 这 一 扫描 过 程 ， 我 们 可 以 将 表 中 的 待 终结 对 象 放置 在 一 起 ， 此 时 回收 器 便 可 通过 换 位 
的 方式 来 添加 新 的 待 终结 对 象 。 

终结 方法 通常 会 影响 线程 之 间 的 共享 状态 。 我 们 不 能 因为 待 终结 对 象 即将 消亡 而 将 终结 
方法 的 操作 范围 限定 在 对 象 内 部 。 例 如 ， 终 结 方法 可 能 需要 访问 全 局 数据 以 实现 某 一 共享 资 
源 的 释放 ， 该 操作 很 可 能 需要 加 锁 。 这 也 是 回收 器 不 能 在 回收 阶段 调用 终结 方法 的 另 一 个 原 






finalize (){ 
if isOpen 





close (desc) ; 
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因 ， 即 可 能 引发 死 锁 。 更 加 糟糕 的 一 种 情况 是 ， 如 果 运 行 时 系统 提供 了 可 重信 锁 ( 即 允 许 线 
程 重复 获取 其 已 经 持 有 的 锁 )， 终 结 方法 便 会 绕 开 死 锁 进 入 临界 区 ， 并 悄 无 声息 地 破坏 应 用 
程序 的 状态 ? 。 

即使 将 终结 方法 的 调用 推迟 到 回收 完成 之 后 ， 回 收 器 依然 会 面临 一 些 与 在 回收 过 程 中 调 
用 终结 方法 相同 的 问题 。 终 结 方法 的 调用 时 机 之 一 是 在 回收 过 程 刚刚 结束 时 ， 此 时 赋值 器 线 
程 尚未 恢复 执行 。 尽 管 该 策略 可 以 提升 终结 操作 的 时 效 性 ， 但 却 会 增 大 赋值 器 的 停顿 时 间 。 
除 此 之 外 ， 如 果 终 结 方法 会 与 其 他 持 有 锁 的 线程 发 生 交互 ， 或 者 终结 方法 需要 通过 加 锁 的 方 
式 争 用 全 局 数据 结构 ， 那 么 线程 之 间 的 交互 便 可 能 出 现 问 题 ， 甚 至 引发 死 锁 。 

最 后 需要 考虑 的 问题 是 ， 编 程 语 言 的 终结 机 制 不 应 当 限 制 回 收 器 可 能 使 用 的 回收 技术 。 
例如 ， 对 于 回收 线程 与 赋值 线程 并 发 执行 的 即时 〈on-the-fly) 回收 器 ， 其 终结 方法 的 调用 会 
发 生 在 赋值 器 执行 的 任意 时 刻 。 


12.1.2 ”终结 方法 应 由 哪个 线程 调用 


对 于 支持 多 线程 的 编程 语言 ， 终 结 机 制 最 自然 的 一 种 实现 策略 是 在 后 台 运 行 一 个 终结 线 
程 ， 该 线程 会 在 赋值 器 线程 执行 过 程 中 异步 地 调用 待 终结 对 象 的 终结 方法 。 此 时 终结 方法 便 
可 能 会 与 赋值 器 并 发 执行 ， 因 此 必须 确保 其 在 并 发 环境 下 执行 时 的 安全 性 。 一 种 特别 需要 关 
注 的 情形 是 : 当 终 结 线程 正在 执行 类 型 T 某 一 实例 的 终结 方法 时 ， 赋 值 器 线程 有 可 能 在 相同 
时 刻 执行 其 男 一 个 实例 的 分 配 与 初始 化 。 在 这 一 场景 下 ， 任 何 对 共享 数据 结构 的 操作 都 必须 
以 同步 方式 执行 9。 

对 于 只 支持 单线 程 的 编程 语言 ， 由 哪个 线程 来 调用 终结 方法 显然 不 会 是 一 个 问题 , 但 此 
时 的 问题 将 主要 集中 在 何 时 调用 终结 方法 上 。 我 们 前面 已 经 指出 了 确定 执行 时 机 的 困难 所 
在 ， 因 此 在 单线 程 环境 下 ， 唯 一 可 行 且 安全 的 方案 是 对 待 终结 对 象 进行 排队 ， 并 在 显 式 控制 
之 下 调用 其 终结 方法 。 而 在 多 线程 系统 中 ， 正 如 我 们 前 面 所 提 到 的 ， 最 佳 的 解决 方案 是 使 用 
独立 的 终结 线程 来 执行 终结 方法 ， 从 而 避免 锁 相关 问题 。 


12.1.3 是否 允许 终结 方法 彼此 之 间 的 并 发 


如 果 在 大 型 并 发 应 用 中 使 用 终结 机 制 ， 则 可 能 需要 更 多 的 终结 线程 来 确保 可 伸缩 性 。 因 
此 从 编程 语言 的 设计 角度 来 看 ， 不 仅 应 当 人 允许 终结 线程 之 间 并 发 执行 ， 而 且 还 应 当 人 允许 终结 
线程 和 赋值 器 线程 之 间 并 发 执行 。 因 此 ， 开 发 者 通常 必须 谨慎 地 设计 终结 函数 来 应 对 可 能 出 
现 的 并 发 情况 ， 只 要 能 够 确保 终结 线程 与 赋值 器 线程 并 发 执行 时 的 安全 性 ， 终 结 线程 彼此 之 
间 的 并 发 便 不 会 存在 更 多 问题 。 


12.1.4 是 否 允 许 终结 方法 访问 不 可 达 对 象 


在 许多 场景 下 ， 用 户 都 希望 终结 方法 能 够 访问 待 回收 对 象 。 在 图 12.2 所 描述 的 文件 流 
案例 中 ,我 们 可 以 很 自然 地 将 操作 系统 文件 描述 符 (一 个 小 整数 ) 放 在 文件 流 对 象 的 某 个 域 


O 为 避免 这 一 情况 的 出 现 ，Java 使 用 专门 的 终结 线程 来 调用 终结 方法 。 该 线程 在 调用 终结 方法 之 前 不 会 持 有 任 
何 锁 ， 因 此 终结 线程 必然 不 可 能 获取 到 待 终 结对 象 已 经 持 有 的 锁 。 实 际 应 用 中 ， 将 终结 工作 指派 给 专门 的 终 
结 线程 并 与 一 般 线程 进行 区 分 ， 这 通常 是 一 种 比较 好 的 做 法 。 

© Java 通过 一 种 特殊 的 规则 来 避免 这 一 情况 : 如 果 对 象 的 终结 方法 可 能 引发 同步 操作 ， 则 不 论 该 对 象 是 否 持 有 
锁 ， 回 收 器 都 会 将 其 当 作 赋 值 器 可 达 对 象 ， 这 一 策略 可 以 避免 对 终结 方法 中 同步 操作 的 限制 。 
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中 ， 此 时 终结 方法 最 简单 的 实现 方案 便 是 读 取 该 域 ， 并 调用 操作 系统 接口 来 关闭 文件 〈 在 此 
之 前 可 能 需要 刷新 缓冲 区 中 尚未 输出 的 数据 )。 但 是 ， 如 果 终 结 方法 无 法 访问 对 象 ， 而 只 能 
执行 一 小 段 未 关联 任何 数据 的 代码 ， 则 终结 机 制 的 效用 将 大 打折 扣 一 一 终结 方法 需要 基于 特 
定 的 上 下 文 进行 工作 。 这 一 上 下 文 信息 在 在 函数 式 语言 中 可 能 是 一 个 闭 包 ， 在 面向 对 象 语言 
中 可 能 是 一 个 对 象 。 因 此 终结 机 制 需 要 为 终结 方法 提供 特定 的 参数 。 

总 的 来 说 ,允许 终结 方法 访问 即将 终结 的 对 象 的 灵活 性 更 高 。 假 设 终 结 方法 是 在 回收 完 
成 后 执行 ， 这 一 策略 意味 着 待 终结 队列 中 的 对 象 必 须 存活 到 回收 结束 之 后 。 由 于 终结 方法 
可 能 访问 任何 从 其 上 下 文 可 达 的 对 象 ， 所 以 回收 器 必须 避免 回收 所 有 从 待 终结 对 象 可 达 的 对 
象 ， 这 便 导 致 妃 踪 式 回 收 器 必须 额外 引入 两 个 阶段 : 第 一 阶段 找 出 所 有 待 终 结对 象 ， 第 二 阶 
段 对 待 终结 对 象 进 行 追踪 并 保留 所 有 从 待 终结 队列 可 达 的 对 象 。 基 于 引用 计数 的 回收 器 可 以 
在 对 象 加 入 到 待 终结 队列 时 增加 其 引用 计数 ， 相 当 于 是 待 终结 队列 引用 了 该 对 象 并 为 其 贡献 
了 引用 计数 。 一 旦 终结 线程 将 对 象 从 待 终结 队列 移 除 并 调用 其 终结 方法 ， 其 引用 计数 便 会 降 
低 为 零 ， 进 而 得 到 回收 ， 但 在 此 之 前 ， 所 有 从 该 对 象 可 达 的 对 象 都 不 会 得 到 回收 。 


12.1.5 何 时 回收 已 终结 对 象 


终结 方法 会 持 有 待 终结 对 象 的 引用 ， 这 意味 着 其 可 能 会 将 该 引用 添加 到 某 一 全 局 数据 结 
构 中 。 这 一 现象 被 称 为 复活 〈resurrection)。 尽 管 复 活 机 制 本 身 并 不 存在 问题 ， 但 得 到 复活 
的 对 象 通常 不 会 再 次 终结 ， 这 可 能 会 令 开发 者 感到 府 异 。 其 原因 在 于 ， 系 统 通常 难以 探测 到 
引发 对 象 复活 的 写 操作 ， 且 将 对 象 加 入 终结 表 的 操作 通常 是 对 象 分 配 以 及 初始 化 过 程 的 一 部 
分 。 例 如 Java 便 保 证 对 象 不 会 被 终结 超过 一 次 。 对 于 支持 以 更 加 动态 的 方式 建立 终结 任务 
的 编程 语言 ， 开 发 者 可 以 请 求 运 行 时 系统 对 某 个 已 复活 对 象 再 次 进行 终结 ， 因 为 编程 语言 
许 对 任何 对 象 执 行 这 样 的 操作 。 

如 果 已 终结 对 象 未 被 复活 ， 则 其 将 在 下 一 轮回 收 过 程 中 得 到 回收 。 对 于 使 用 分 区 策略 的 
回收 器 〈 例 如 分 代 回 收 器 )， 已 终结 对 象 可 能 会 驻 留 在 某 个 回收 间隔 较 长 的 空间 内 ， 因 此 终 
结 方法 可 能 会 显著 延长 对 象 的 物理 寿命 。 


12.1.6 ”终结 方法 执行 出 错时 应 当 如 何 处 理 


如 果 应 用 程序 以 同步 的 方式 来 执行 终结 操作 ， 则 开发 者 很 容易 对 其 中 的 终结 操作 进行 包 
装 以 便 捕获 其 所 返回 的 错误 或 者 抛 出 的 异常 。 但 如 果 终 结 方 法 以 异步 的 方式 执行 ， 则 最 好 的 
方法 是 捕获 异常 并 将 其 记录 ， 同 时 将 其 交 由 应 用 程序 在 合适 的 时 间 处 理 。 此 处 的 相关 内 容 更 
多 地 涉及 软件 工程 学 的 相关 内 容 ， 超 出 了 垃圾 回收 算法 的 讨论 范畴 。 


12.1.7 终结 操作 是 否 需要 遵从 某 种 顺序 


终结 顺序 与 应 用 程序 密切 相关 。 考 虑 图 12.3 所 示 的 场景 ，Bufferedstream 类 的 实例 引 
用 了 一 个 类 型 为 Filestream 的 对 象 ， 后 者 持 有 一 个 已 经 打开 的 操作 系统 文件 描述 符 。 两 
个 对 象 都 需要 终结 ， 但 是 在 Filestream 对 象 关闭 文件 描述 符 之 前 ， 应 用 程序 必须 确保 
Bufferedstream 实例 先 将 缓冲 区 中 的 数据 刷新 到 文件 中 9 。 


CO 我 们 还 需要 注意 另 一 种 更 加 微妙 的 情况 : 除非 可 以 确定 图 中 的 FileStream 对 象 仅 被 Bufferdstream 对 
象 引 用 ， 否 则 在 后 者 完成 终结 之 后 ， 回 收 器 依然 不 能 终结 Filestream 对 象 。 但 这 样 一 来 ，Filestream 
对 象 中 的 文件 描述 符 要 到 两 个 回收 周期 之 后 才能 得 到 关闭 。 
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finalize () { 
if isOpen 
flush () ; 






FileStream 


int desc 3 


StringBuffer 
si RE 


图 12.3 对象 终 结 顺 序 。 不 可 达 的 Bufferedstream 实例 必须 先 于 不 可 达 的 Filestream 实例 执行 终结 


对 于 类 似 于 图 12.3 的 分 层 设计 模型 ， 合 理 的 终结 语义 显然 应 当 是 从 上 到 下 逐 层 进行 终 
结 。 由 于 下 层 对 象 从 上 层 对 象 可 达 ， 所 以 对 象 之 间 自 动 依照 这 种 顺序 进行 终结 是 有 可 能 的 。 
需要 注意 的 是 ， 如 果 我 们 限制 了 对 象 的 终结 顺序 ， 则 终结 过 程 的 最 终 完 成 可 能 需要 很 久 ， 因 
为 每 次 回收 仅 可 以 终结 位 于 某 一 层次 的 对 象 。 也 就 是 说 ， 每 次 回收 过 程 中 我 们 仅 可 以 终结 那 
些 不 从 其 他 待 终结 对 象 可 达 的 对 象 。 

这 一 策略 存在 一 个 显著 的 缺陷 : 它 无 法 处 理由 多 个 待 终结 对 象 组 成 的 环 。 但 是 这 一 情况 


通常 极 少 发 生 ， 因 而 确保 对 象 之 间 依照 可 达 性 顺序 来 进行 终 A B 
结 通常 更 加 简单 有 效 ， 也 就 是 说 ， 如 果 对 象 B 从 对 象 A 可 negan 
达 ， 则 系统 应 当先 终结 对 象 A。 


Sa np pean 终结 方法 终结 方法 
一 旦 待 终结 对 象 组 成 环 ， 开 发 者 必须 进行 手工 干预 。 诸 a) 初始 顺序 


如 弱 引用 (参见 第 12.2 节 ) 等 机 制 虽然 较为 复杂 ， 但 对 解 ”A B 
决 这 一 问题 也 可 能 有 所 帮助 。 正 如 Boehm[2003] 所 指出 的 ， negan 
通用 的 解决 方案 应 当 是 在 设计 时 便 将 需要 终结 的 域 从 对 象 中 


拆 分 ， 进 而 打破 待 终 结对 象 可 能 构成 的 环 。 例 如 在 图 12.4 

中 ,对 象 A 和 B 都 存在 终结 方法 且 彼 此 相互 引用 。 为 避免 
5 E 7 A7 终结 方法 

终结 过 程 中 环 的 出 现 ， 我 们 可 以 将 B 拆 分 为 B 和 B'， 其 中 AS ele 

B 不 包含 终结 方法 而 B' 包含 (参见 图 12.40), HAI aa nec 

A 和 8B 依然 相互 引用 ， 但 重要 的 是 B' 并 未 引用 A。 此 时 回 oe a 

i 以 确保 终结 顺序 
收 器 便 可 依照 可 达 顺 序 先 终结 A， 再 终结 B' 


12.18 终结 过 程 中 的 竞争 问题 


即使 终结 操作 的 执行 顺序 并 无 特定 的 顺序 要 求 ， 依 然 存 在 一 种 微妙 的 竞争 问题 ， 这 一 问 
题 导致 直接 使 用 终结 过 程 会 存在 一 些 十 分 隐 星 的 错误 [Boehm，2003]。 重 新 考虑 图 12.2 所 
ANE) Filestream 案例 。 假 设 在 赋值 器 最 后 一 次 向 文件 中 写 入 数据 的 过 程 中 ，Filestream 对 
象 的 writepata 方 法 会 先 获取 文件 描述 符 ， 然 后 再 执行 write 系统 调用 向 其 中 写 和 人 数据。 由 
于 在 write 系统 调用 之 后 Filestream 对 象 便 会 死亡 ， 所 以 编译 器 可 能 会 进行 优化 ， 即 在 执 
行 write 系统 调用 之 前 Filestream 对 象 便 已 经 不 可 达 。 如 果 回 收 过 程 发 生 在 write 操作 的 
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执行 过 程 中 ， 则 Filestream 对 象 的 终结 方法 可 能 会 在 write 调用 真正 引发 操作 系统 的 数据 
写 人 之 前 便 将 描述 符 关 闭 。 这 一 问题 较为 环 手 ， 且 Boehm 根据 经 验 认 为 此 类 错误 是 普遍 存 
在 的 ， 但 是 由 于 可 能 出 错 的 时 间 窗 通常 较 短 ， 所 以 问题 很 少 暴 露出 来 。 

在 Java 语言 中 ， 这 一 问题 的 解决 方案 我 们 在 前 面 已 经 提 到 过 ， 即 一 旦 对 象 的 锁 被 持 有 ， 
则 回收 器 将 其 判定 为 存活 ， 且 该 对 象 的 终结 方法 只 能 同步 执行 。 但 更 加 通用 的 避免 竞争 的 解 
决 方案 是 强制 编译 器 将 Filestream 对 象 的 引用 保持 更 长 时 间 ， 即 把 该 对 象 的 引用 传递 给 稍 
后 的 某 一 调用 (该 调用 可 以 不 执行 任何 操作 )， 且 编译 器 不 会 将 这 一 调用 优化 掉 。.NET 框架 
提供 了 这 一 能 力 ， 例 如 C# 中 的 sc.xeepalive PAR, {B Java 目前 并 未 提供 类 似 的 调用 。 


12.1.9 终结 方法 与 锁 


Boehm[2003] 提出 ， 终 结 方法 的 目的 通常 是 通过 更 新 某 些 全 局 数据 结构 来 释放 与 不 可 达 
对 象 相 关 的 资源 ， 所 以 此 类 数据 结构 是 全 局 的 ， 因 而 对 它们 的 访问 通常 需要 引入 一 些 同 步 机 
制 。 关 闭 已 打开 的 文件 或 者 其 他 软件 组 件 (此 处 是 指 操作 系统 ) P 
同步 ， 但 对 程序 数据 结构 的 更 新 则 必须 引入 显 式 同 步 ， 因 为 对 于 程序 中 大 多 数 代码 而 言 ， 终 
结 方法 的 执行 是 异步 的 。 

开发 者 可 以 通过 两 种 策略 来 处 理 这 一 情况 。 一 种 策略 是 令 所 有 针对 全 局 数据 结构 的 访问 
都 使 用 同步 操作 ， 即 使 是 在 单线 程 情 况 下 也 必须 如 此 (因为 终结 方法 可 能 会 在 全 局 数据 结构 
的 某 一 中 间 状 态 对 其 进行 操作 )。 这 要 求 编 程 语言 不 得 将 包含 终结 方法 的 、 明 显 私 有 的 对 象 
所 需 的 同步 操作 省 略 。 另 一 种 策略 是 回收 器 仅 将 竺 终结 对 象 排 队 ， 但 不 执行 真正 终结 操作 。 
某 些 编程 语言 的 内 建 终结 机 制 本 身 就 使 用 这 种 排队 策略 ， 但 也 有 一 些 并 非 如 此 ， 此 时 开发 者 
便 需 要 手工 将 待 终 结对 象 添 加 到 自 定义 终结 队列 中 。 除 此 之 外 ， 开 发 者 还 需要 在 适当 的 ( 安 
全 ) 位 置 增加 代码 来 处 理 终结 队列 中 的 对 象 。 由 于 终结 方法 的 执行 可 能 会 导致 新 的 待 终结 对 
象 被 添加 到 终结 队列 中 ， 所 以 队列 处 理 代码 应 当 一 直 处 理 到 整个 队列 变 空 为 止 ， 如 果 处 理 过 
程 中 有 一 些 重要 的 资源 需要 立即 释放 ， 处 理 代码 可 以 强制 发 起 回收 。 算 法 12.1 即 为 这 一 操 
作 的 伪 代 码 实 现 。 上 文 提 到 ， 执 行 这 一 算法 的 线程 不 应 当 持 有 任何 待 终结 对 象 的 锁 ， 这 便 限 
制 了 终结 队列 处 理 代码 可 以 安全 执行 的 位 置 。 

算法 12.1 终结 队列 的 处 理 


1 process_finalisation_queue(): 

2 while not isEmpty(Queue) 

3 while not isEmpty(Queue) 

4 obj + remove(Queue) 

5 obj. finalize() 

6 if desired /* 某 种 适当 的 条 件 */ 
7 collect() 


使 用 该 方案 唯一 需要 注意 的 是 ， 开 发 者 需要 选择 合适 的 位 置 来 执行 终结 队列 处 理 代 码 。 
除了 必须 手工 实现 所 有 的 终结 逻辑 之 外 ， 开 发 者 还 应 当 注 意 避 免 在 共享 对 象 的 中 间 状 态 对 其 
进行 操作 。 仅 使 用 锁 可 能 是 不 够 的 ， 因 为 调用 终结 方法 的 线程 可 能 已 经 持 有 了 锁 ， 所 以 临界 
区 重 入 的 现象 有 可 能 发 生 。Java 编程 规范 指出 ， 系 统 只 有 在 线程 在 不 持 有 任何 用 户 可 见 锁 的 
情况 下 ， 才 会 调用 终结 方法 ， 其 原因 正在 于 此 。 


12.1.10 ”特定 语言 的 终结 机 制 
Java, object 类 位 于 Java 类 继承 体系 的 最 上 层 ， 该 类 提供 了 一 个 名 为 inalize 的 方法 ， 
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但 该 方法 并 不 做 任何 事情 。 子 类 可 以 通过 重 载 该 方法 的 方式 来 请 求 终 结 。Java 并 不 保证 终结 
顺序 ， 且 其 在 并 发 方面 唯一 可 以 提供 的 保障 是 终结 方法 仅 会 在 不 持 有 任何 用 户 可 见 锁 的 上 下 
文中 执行 。 这 也 意味 着 终结 方法 可 能 在 多 个 线程 中 并 发 执行 ， 尽 管 手 册 并 未 对 这 一 情况 进行 
说 明 。 如 果 finalize 方法 抛 出 异常 ，Java 系统 会 将 其 忽略 并 继续 执行 。 如 果 待 终结 对 象 并 未 
复活 ， 则 其 将 在 后 续 的 回收 过 程 中 得 到 回收 。Java 使 用 java.lang.ref API 支持 用 户 控制 的 
终结 机 制 ， 这 将 在 12.2 节 进 行 描述 。 

Lisp. Liquid Common Lisp 提供 了 一 种 被 称 为 终结 队列 (finalisation queue) 的 对 象 。 开 
发 者 可 以 将 普通 对 象 注册 到 一 个 或 者 多 个 终结 队列 中 。 当 已 注册 对 象 不 可 达 时 ， 回 收 器 会 将 
其 添加 到 其 所 注册 的 终结 队列 中 。 开 发 者 可 以 从 任意 一 个 终结 队列 中 获取 对 象 并 执行 其 所 需 
要 的 操作 。 假 设 对 象 A 和 对 象 B 均 已 注册 到 终结 队列 中 ， 且 对 象 B 从 对 象 A 可 达 (但 反之 
不 可 达 )， 如 果 它 们 在 同一 轮回 收 中 不 可 达 ， 回 收 器 可 以 确保 对 象 A 先 于 对 象 B 加 入 终结 队 
列 。 也 就 是 说 ， 回 收 器 可 以 确保 无 环 对 象 图 的 终结 顺序 。Liquid Common Lisp 中 的 终结 队列 
与 Dybvig 等 [1993] 所 描述 的 守护 者 (guardian) 策略 类 似 。 

CLisp 提供 了 一 种 更 加 简单 的 机 制 ， 它 允许 开发 者 要 求 回收 器 在 发 现 给 定 对 象 O 不 可 达 
时 调用 给 定 的 函数 矿 TERRE PRASAD SIFT RO, BWR O 将 保持 可 达 ， 
系统 将 永远 不 会 将 其 终结 。 由 于 对 象 0 是 作为 参数 传递 给 函数 .的 ， 所 以 系统 允许 对 象 复 
活 。 函 数 f 其 至 可 以 再 次 注册 对 象 90， 即 对 象 O 可 以 被 终结 多 次 。 这 一 基本 策略 的 一 个 变种 
允许 开发 者 为 对 象 O 以 及 函数 指定 守护 者 G : “MRO 不 可 达 时 ， 只 有 在 守护 者 G 依然 
可 达 的 情况 下 ， 系 统 才 会 调用 函数 矿 如 果 守 护 者 G 不 可 达 ， 则 系统 依然 会 回收 对 象 O 但 是 
不 会 调用 函数 /。 对 于 Dybvig 等 [1993] 所 描述 的 这 种 守护 者 策略 ， 其 实现 方式 之 一 是 在 函 
Rf PHRMA O 加 入 到 守护 者 G 的 内 部 队列 中 。 

C++, C++ 语言 提供 了 析 构 函数 (destructors) 来 处 理 对 象 的 销毁 ， 其 相当 于 初始 化 新 
对 象 的 构造 函数 的 逆 操 作 。 大 多 数 析 构 函数 的 主要 目的 是 显 式 释放 内 存 并 将 其 归还 给 分 配 
器 。 除 此 之 外 ， 开 发 者 还 可 以 在 析 构 函数 中 添加 任意 代码 ， 因 而 其 可 以 完成 文件 关闭 等 任 
务 。 开 发 者 也 可 将 析 构 函数 作为 钩子 (hook) 来 实现 非 环 状 共享 对 象 的 引用 计数 回收 。 实 际 
E, CH 模板 允许 通过 一 种 通用 的 智能 指针 机 制 来 实现 引用 计数 。 析 构 函 数 中 的 大 多 数 工 作 
通常 都 与 内 存 释 放 有 关 ， 这 正 是 垃圾 回收 器 所 要 处 理 的 任务 ， 因 此 对 C++ 来 说 ， 几 乎 无 需 
引入 额外 的 终结 机 制 。 析 构 函 数 中 的 内 存 释 放 通 常 相对 安全 且 直 接 ， 这 不 只 是 因为 它 不 会 引 
入 用户 可 见 的 锁 那么 简单 。 但 是 ,一 旦 开发 者 需要 面临 真正 的 终结 场景 ， 则 前 面 提 到 的 所 有 
问题 ， 包 括 锁 相 关 处 理 、 终 结 方 法 的 调用 顺序 等 ， 都 将 重新 出 现 并 需要 开发 者 去 解决 ， 要 正 
确 处 理 这 些 问题 通常 较为 困难 。 

NET. 在 C++ 现 有 的 析 构 函数 之 外 ，.NET framework 为 C、C++ 及 frame work 所 支持 
的 其 他 语言 增加 了 终结 方法 。 析 构 函 数 的 调用 是 确定 性 的 ， 它 是 由 编译 器 生成 的 代码 所 调用 
的 ， 其 目的 在 于 当 程 序 离开 对 象 作 用 域 时 执行 必要 的 对 象 清 理 。 析 构 函 数 可 能 会 调用 其 他 对 
象 的 析 构 函数 ， 但 是 所 有 的 析 构 函数 都 与 托管 资源 ( 即 .NET 运行 时 系统 控制 的 资源 ， 主 要 
是 内 存 ) 的 释放 有 关 。 而 终结 方法 的 目的 则 在 于 显 式 回收 非 托管 资源 ， 例 如 打开 的 文件 句柄 
等 。 如 果 某 类 对 象 需要 终结 ， 则 对 于 编译 器 生成 代码 显 式 回 收 对 象 的 场景 ， 析 构 函 数 需要 调 
用 终结 方法 。 如 果 对 象 最 终 得 到 隐 式 回收 ， 则 终结 方法 的 调用 最 终 是 由 回收 器 来 完成 的 ， 此 
时 析 构 函数 将 不 会 被 调用 。 不 论 如 何 ，.NET framework 中 的 终结 机 制 与 Java 十 分 类 似 ， 但 
其 最 终 形态 却 混合 了 C++ 的 析 构 函数 以 及 某 些 与 Java 十 分 类 似 的 终结 机 制 ， 其 终结 方法 的 
调用 既 可 能 是 同步 的 ， 也 可 能 是 异步 的 。 
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12.1.11 进一步 的 研究 


许多 语言 在 很 早 之 前 就 已 经 支持 终结 机 制 ， 并 且 不 同 的 语言 会 根据 自身 情况 引入 一 些 特 
丈 机 制 。 对 于 终结 机 制 的 相关 问题 及 其 不 同 设计 方式 ， 系 统 性 的 、 跨 语言 的 分 析 在 最 近 的 文 
献 中 出 现 的 越 来 越 多 ， 例 如 在 Hudson [1991] 以 及 Hayes [1992] 的 文献 中 。Boehm[2003] 对 
终结 语义 以 及 其 中 的 某 些 球 手 问题 进行 了 深入 分 析 ， 该 文献 也 是 本 节 相 关内 容 的 主要 来 源 。 


12.2 5A 


垃圾 回收 机 制 通过 指针 链 的 可 达 性 来 判定 哪些 对 象 需要 保留 、 哪 些 对 象 需 要 回收 。 对 于 
自动 内 存 管理 而 言 这 是 一 种 合理 的 策略 ,但 其 在 某 些 场景 下 依然 可 能 过 到 问题 。 

例如 ， 某 些 编译 器 会 令 同 名 变量 (例如 xyz) 指向 相同 的 名 称 字 符 串 实例 ， 此 时 如 果 
要 比较 两 个 变量 的 名 称 是 否 相 等 ， 只 需 比 较 它 们 指向 自身 名 称 字符 串 的 指针 是 否 相 等 。 为 
达到 这 一 目的 ， 编 译 器 需要 通过 一 张 表 来 记录 所 有 已 经 使 用 过 的 变量 名 。 该 表 中 的 字符 
串 即 为 变量 名 的 规范 实例 (canonical instance)， 因 此 该 表 在 某 些 情况 下 也 被 称 为 规范 化 表 
(canonicalisation tables)。 如 果 某 个 变量 名 在 运行 期 间 不 再 使 用 〈 即 该 变量 名 不 再 对 应 任何 数 
据 结构 )， 但 其 所 对 应 的 规范 实例 将 依然 存在 。 运 行 时 系统 或 许可 以 将 仅 被 规范 化 表 所 引用 
的 字符 串 回收 ， 但 可 靠 地 探测 到 这 一 情况 却 比 较 困 难 。 

弱 引 用 (wak reference)( 也 称 弱 指 针 (weak pointer)) 可 以 较 好 地 解决 这 一 问题 。 如 果 从 
根 出 发 ， 经 由 一 系列 由 强 引 用 (strong references) 构成 的 指针 链 可 以 到 达 某 一 对 象 ， 则 称 该 
对 象 强 可 达 (strongly reachable)。 只 要 对 象 依旧 强 可 达 ， 则 指向 该 对 象 的 弱 引 用 便 可 一 直 保 
持 其 引用 关系 。 但 是 ， 一旦 从 根 出 发 到 达 该 对 象 的 任意 一 条 指针 链 都 包含 至 少 一 个 弱 引 用 ， 
则 回收 器 可 以 将 该 对 象 回收 ， 并 将 所 有 直接 引用 该 对 象 的 弱 引 用 设置 为 空 。 我 们 将 此 类 对 象 
称 为 弱 可 达 (weakly-reachable)。 我 们 即将 看 到 ， 回 收 器 在 回收 弱 可 达 对 象 时 还 会 执行 一 些 
额外 动作 ， 例 如 通知 赋值 器 某 一 弱 引 用 已 被 设置 为 空 。 

在 上 文 提 到 的 使 用 规范 化 表 来 维护 变量 名 的 案例 中 ， 如 果 将 从 规范 化 表 到 变量 名 的 引用 
设置 为 弱 引 用 ， 则 一 旦 用 于 表示 某 一 变量 名 的 字符 串 不 存在 强 引用 ， 回 收 器 便 可 回收 该 字符 
串 并 将 其 在 规范 化 表 中 的 弱 引用 设置 为 空 。 需 要 注意 的 是 ， 规 范 化 表 的 设计 也 需要 将 这 一 因 
素 考 虑 在 内 ， 即 程序 可 能 偶尔 需要 清理 规范 化 表 ， 或 者 值得 进行 清理 。 例 如 ， 如 果 规 范 化 表 
使 用 哈 希 表 的 方式 实现 ， 且 哈 希 表 里 每 个 桶 中 均 维护 有 一 条 链表 ， 则 已 经 死亡 的 弱 引 用 〈 即 
已 经 被 置 空 的 弱 引 用 ) 可 能 会 占用 链表 中 的 部 分 节点 ， 因 此 我 们 可 能 需要 偶尔 将 这 些 引 用 从 
哈 希 表 中 清除 。 这 同时 也 说 明了 通知 机 制 的 作用 : 我 们 可 以 利用 通知 来 触发 清除 逻辑 。 

后 续 我 们 将 提供 更 加 通用 的 弱 引 用 定义 ， 其 中 包含 多 种 不 同 强度 的 引用 类 型 ， 同 时 我 们 
也 将 说 明 回 收 器 应 当 如 何 支 持 这 些 引用 。 但 在 此 之 前 ， 我 们 仅 考 虑 强 引 用 和 弱 引 用 的 实现 方 
式 。 首 先 考虑 追踪 式 回收 器 中 的 场景 。 为 支持 弱 引 用 ， 回 收 器 在 首 轮 遍历 过 程 中 应 当 避 免 对 弱 
引用 的 目标 进行 追踪 ,但 需 对 其 进行 记录 以 便 第 二 次 遍历 。 第 一 次 遍历 完成 之 后 ， 回 收 器 将 找 
出 所 有 经 强 引用 指针 链 可 达 的 对 象 ， 即 强 可 达 对 象 。 在 第 二 次 遍历 过 程 中 ， 回 收 器 将 检查 第 
一 轮 饥 历 过 程 中 发 现 并 记录 的 弱 引 用 : 如 果 其 所 引用 的 对 象 依 旧 强 可 达 ， 则 回收 器 保留 该 弱 
引用 (复制 式 回收 器 还 需 将 其 更 新 到 目标 对 象 的 最 新 副本 )。 和 否则 ， 回 收 器 将 把 该 弱 引 用 设置 
为 空 ， 从 而 确保 其 目标 对 象 不 再 可 达 。 第 二 轮 遍历 完成 后 ， 回 收 器 便 可 回收 所 有 不 可 达 对 象 。 

回收 器 必须 能 够 识别 弱 引 用 。 可 以 在 引用 中 通过 一 位 来 将 其 标记 为 弱 引 用 ， 例 如 对 于 依 
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照 字 节 定 址 的 、 按 照 字 来 对 齐 的 机 器 ， 指 针 的 低 两 位 必然 为 零 ， 我 们 便 可 将 其 中 的 一 位 设置 
为 1 来 表示 弱 引 用 。 该 方案 的 缺陷 在 于 每 个 解 引用 操作 都 要 先 清空 其 最 低位 以 避免 当前 引用 
是 弱 引 用 。 如 果 弱 引用 仅 用 于 编程 语言 的 特定 受 限 场景 ， 这 一 开销 或 许可 以 接受 。 某 些 语言 
及 其 实现 可 能 会 使 用 带 标签 值 (tagged value)( 人 参见 11.2 节 一 一 译 者 注 ) 来 实现 这 一 策略 ， 但 
这 样 一 来 弱 引用 又 会 引入 一 种 新 的 标签 类 型 。 该 方案 的 另 一 个 缺陷 在 于 ， 回 收 器 必须 找到 所 
有 指向 待 回 收 对 象 的 弱 引 用 并 将 其 置 空 ， 因 此 回收 器 要 么 必须 对 根 和 堆 进 行 第 二 次 遍历 ， 要 
么 必须 记录 第 一 次 遍历 过 程 中 发 现 的 所 有 弱 引 用 。 

与 使 用 低位 作为 标签 值 的 方案 相对 ， 另 一 种 方案 是 使 用 高 位 作为 标签 值 ， 并 对 整个 堆 进 
行 二 次 映射 。 此 时 堆 中 的 每 一 页 都 会 在 虚拟 内 存 中 的 两 个 位 置 出 现 ， 一 个 位 置 是 其 原本 的 地 
址 ， 另 一 个 位 置 则 是 较 高 的 〈 不 同 ) 地 址 。 两 个 地 址 的 唯一 不 同 之 处 在 于 高 位 中 用 于 区 分 弱 引 
用 的 位 有 所 不 同 。 该 方案 可 以 避免 在 使 用 指针 之 前 先进 行 掩 码 操作 ， 且 其 检测 弱 指 针 的 方式 也 
十 分 简单 高 效 。 但 其 缺点 在 于 ， 可 用 地 址 空间 少 了 一 半 ， 这 在 较 小 的 地 址 空间 中 将 成 为 问题 。 

最 通用 的 实现 方案 可 能 是 使 用 间接 方式 ， 即 提供 专门 的 弱 对 象 来 持 有 弱 引 用 。 弱 对 象 方案 
的 不 足 之 处 在 于 其 透明 性 不 足 : 回收 器 和 赋值 器 均 需 要 一 次 显 式 解 引用 操作 才能 访问 弱 引 用 的 
目标 对 象 ， 从 而 引入 了 间接 访问 开销 。 除 此 之 外 ， 如 果 我 们 需要 在 某 一 对 象 中 引入 弱 引 用 ， 还 
需 额 外 分 配 一 个 弱 对 象 。 但 幸运 的 是 ， 弱 对 象 的 特殊 性 只 需要 分 配器 和 回收 器 关注 即 可 ， 对 
于 用 户 代 码 而 言 ， 它 们 与 普通 对 象 并 无 二 致 。 系 统 可 以 在 对 象 头 部 设置 一 个 特殊 的 位 来 区 分 
弱 对 象 。 另 外 ， 如 果 对 象 包含 一 些 用 户 自 定义 的 追踪 方法 ， 则 弱 引 用 仍 需要 进行 特殊 处 理 。 

开发 者 如 何 才能 获取 一 个 弱 引 用 ( 弱 对 象 ) ? 在 使 用 弱 引 用 的 真实 场景 下 ， 系 统 必 须 提 
供 一 个 原 语 ， 开 发 者 可 以 通过 该 原 语 从 对 象 O 的 强 引用 中 获取 其 弱 引 用 。 如 果 使 用 弱 对 象 
来 封装 弱 引 用 ， 弱 对 象 类 型 通常 需要 提供 一 个 构造 函数 ， 该 函数 可 以 从 给 定 对 象 O 的 强 引 
用 中 创建 一 个 新 的 弱 引 用 。 系 统 甚至 可 以 允许 开发 者 改变 弱 对 象 中 的 引用 域 。 


12.2.1 其 他 动因 


弱 引 用 可 以 用 于 解决 某 些 编程 问题 ， 或 者 可 以 提供 更 加 简单 高 效 的 解决 方案 。 规 范 化 表 
只 是 使 用 案例 之 一 ， 另 一 个 案例 是 用 于 管理 在 必要 情况 下 可 以 恢复 或 者 重建 的 数据 缓存 。 此 
类 缓存 的 目的 在 于 达到 时 间 和 空间 上 的 某 种 平衡 ， 但 如 何 控制 缓存 大 小 却 是 一 个 比较 困难 的 
问题 : 如 果 空 间 足 够 大 ， 则 缓存 可 以 更 大 ， 但 应 用 程序 如 何 才能 确定 可 用 空间 是 否 足 够 充 
裕 ? 如 果 空 间 限 制 发 生动 态 变化 应 当 如 何 处 理 ? 回收 器 能 够 掌握 可 用 空间 的 状态 ， 因 而 可 以 
将 这 些 任务 交 由 回收 器 来 完成 。 也 就 是 说 ,我 们 可 以 使 用 弱 引 用 来 管理 缓存 ， 回 收费 在 发 现 
缓存 不 再 强 可 达 之 后 可 以 将 弱 引 用 设置 为 空 。 此 时 回收 器 便 可 根据 空间 使 用 情况 来 调整 缓存 。 

回收 器 还 可 以 将 对 象 从 强 可 达到 弱 可 达 的 状态 变化 通知 给 应 用 程序 ， 后 者 可 以 在 该 对 象 
得 到 回收 之 前 执行 适当 的 操作 。 该 场景 属于 第 12.1 节 所 介绍 的 终结 机 制 的 推广 。 在 其 他 条 
件 之 外 ， 以 适当 的 方式 来 组 织 弱 引用 有 助 于 程序 更 好 地 控制 对 象 终结 方法 的 调用 顺序 。 


12.2.2 ”对 不 同 强 度 指 针 的 支持 


在 强 引 用 之 外 ， 弱 引用 可 以 泛 化 成 多 种 不 同 强度 的 弱 指 针 ， 它 们 可 以 处 理 上 文 所 描述 的 
多 种 问题 。 以 引用 强度 为 顺序 的 回收 可 以 为 每 种 强度 级 别 关 联 一 个 正 整数 。 对 于 给 定 的 整数 
a > 0， 如 果 从 根 出 发 存在 一 条 指针 链 可 以 到 达 某 一 对 象 ， 且 该 指针 链 中 的 所 有 指针 强度 均 
不 小 于 wx， 则 称 该 对 象 为 a 可 达 。 可 达 (没有 “*” 号 ) 意味 着 对 象 a 可 达 但 并 非 (at+l) * 
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可 达 。 如 果 某 一 对 象 的 所 有 可 达 路 径 都 存在 至 少 一 个 强度 为 a 的 指针 ， 且 至 少 有 一 条 路 径 不 
包含 强度 小 于 a 的 指针 ， 则 该 对 象 为 a 可 达 。 描 述 强度 的 数字 可 以 是 任意 的 ， 因 为 我 们 只 需 
要 用 其 来 表述 强度 的 相对 顺序 ， 在 后 续 表 述 中 我 们 将 用 名 称 代替 数字 来 描述 强度 的 级 别 。 

每 种 强度 的 引用 通常 会 与 回收 器 的 特定 行为 相关 联 。 在 支持 多 种 不 同 强度 的 弱 引 用 的 编 
程 语 言 中 ， 最 知名 的 当 属 Java， 其 提供 的 引用 类 型 从 最 强 到 最 弱 可 以 分 为 以 下 几 种 9 : 

强 引用 (strong reference): 普通 的 引用 ， 具 有 最 高 的 引用 强度 。 回 收 器 永远 不 会 将 强 引 
用 置 空 。 

软 引 用 〈soft reference): 回收 器 可 以 根据 当前 的 空间 使 用 率 来 判定 是 否 需要 将 软 引 用 置 
空 。 如 果 Java 回收 器 将 某 个 指向 对 象 O 的 软 引 用 置 空 ， 它 必须 在 同一 时 刻 自动 8 将 所 有 导 
致 对 象 O 强 可 达 的 软 引用 置 空 。 这 一 规则 可 以 确保 在 回收 器 将 这 些 引 用 置 空 之 后 ， 对 象 将 
不 再 软 可 达 。 

3551 (weak reference): 一 旦 回收 器 发 现 某 一 ( 软 可 达 的 ) 弱 引 用 的 目标 对 象 变 为 弱 
可 达 ， 则 回收 器 必须 将 该 引用 置 空 (从 而 确保 其 目标 对 象 不 再 软 " 可 达 )。 与 软 引 用 类 似 ， 一 
旦 回收 器 将 某 个 指向 对 象 O 的 弱 引 用 置 空 ， 则 必须 同时 将 所 有 其 他 导致 该 对 象 软 ”可 达 的 软 ” 
可 达 弱 引用 置 空 。 

终结 方法 引用 ( finaliser reference): 我 们 将 从 终结 表 到 待 终结 对 象 的 引用 称 为 终结 方法 引 
用 。 我 们 曾 在 第 12.1 节 描 述 了 Java 的 终结 机 制 ， 此 处 再 次 进行 描述 是 为 了 说 明 此 类 引用 的 相 
对 强度 。 终 结 方法 引用 只 在 运行 时 系统 内 部 出 现 ， 它 并 不 会 像 弱 对 象 一 样 暴露 给 开发 者 。 

虚 引 用 (phantom reference): Java 中 最 弱 的 一 种 引用 类 型 。 虚 引用 只 有 与 通知 机 制 联合 
使 用 才 具 有 一 定 意义 ， 这 是 因为 虚 引 用 对 象 不 允许 程序 经 由 该 引用 获取 目标 对 象 的 引用 ， 因 
此 程序 唯一 可 能 的 操作 是 将 虚 引 用 置 空 。 程 序 必须 显 式 地 将 虚 引 用 置 空 来 确保 回收 器 将 其 目 
标 对 象 回收 。 

Java 语言 中 不 同 强度 的 引用 并 没有 我 们 此 处 描述 的 这 么 多 ， 但 此 处 的 每 种 语义 却 与 语言 
规范 所 定义 的 每 种 弱 引 用 相关 联 。 软 引用 允许 系统 对 可 调整 的 缓存 进行 收缩 ; 弱 引 用 可 以 用 
于 规范 化 表 或 者 其 他 场景 ; 虚 引 用 允许 开发 者 控制 回收 的 顺序 以 及 时 间 。 

多 强度 引用 的 实现 需要 在 回收 过 程 中 增加 额外 的 遍历 ， 但 这 些 操作 通常 可 以 很 快 完成 。 
下 面 我 们 以 Java 的 4 种 强度 为 例 来 描述 复制 式 回 收 器 对 不 同 强度 引用 的 处 理 方式 。 标 记 -- 
清扫 回收 器 也 可 以 通过 类 似 的 方式 实现 ， 同 时 也 会 更 加 简单 。 引 用 计数 回收 器 中 的 实现 方式 
我 们 将 稍 后 介绍 。 回 收 器 应 当 以 如 下 方式 执行 堆 遍 历 过 程 : 

1) 从 根 开 始 ， 仅 对 强 可 达 对 象 进行 追踪 并 复制 ， 同 时 找 出 所 有 的 软 对 象 、 弱 对 象 、 虚 
对 象 (但 不 对 这 些 对 象 进行 追踪 )。 

2) 如 果 必 要 ， 则 自动 将 所 有 软 引 用 置 空 3。 如 果 无 需 将 软 引 用 置 空 ， 则 需 对 其 进行 追踪 


O 当前 为 止 ,除了 Java 之 外 ,， 我们 尚未 发 现 其 他 语言 支持 多 种 强度 的 弱 引 用 ， 但 这 一 思想 可 能 会 在 未 来 得 到 
广泛 借鉴 。 

O 自动 这 一 概念 在 Java 规范 中 的 含义 是 ， 没 有 任何 线程 会 看 到 仅 有 部 分 引用 被 置 空 的 状态 ， 即 要 么 所 有 软 引 
用 都 未 置 空 ， 要 么 全 都 置 空 。 为 达到 这 一 目的 ， 可 以 使 用 一 个 全 局 共享 旗 标 来 表示 是 否 应 当 将 (包含 弱 引 用 
的 ) 对 象 的 引用 域 看 作 已 置 空 ， 即 使 在 该 引用 域 尚未 被 置 空 的 情况 下 。 对 象 自 身 内 部 需要 包含 一 个 旗 标 来 表 
示 全 局 共享 旗 标 是 否 应 当 生效 ， 即 引用 是 否 应 当 被 看 作 是 已 置 空 。 在 并 发 回收 器 中 ， 使 这 一 操作 能 安全 执行 
可 能 需要 引入 适当 的 同步 操作 。 

© 也 可 以 选择 性 地 置 空 软 引用 , 但 这 在 实现 上 具有 一 定 的 难度 。 这 里 的 “全 部 ”是 指 所 有 已 经 存在 的 软 引 用 ， 
而 不 仅仅 是 回收 器 刚刚 发 现 的 。 
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和 复制 ， 并 找 出 所 有 的 软 " 可 达 对 象 。 对 软 可 达 对 象 进 行 追踪 时 可 能 会 发 现 新 的 弱 可 达 或 虚 
可 达 对 象 。 

3) 如 果 弱 引用 的 目标 对 象 已 被 复制 到 目标 空间 ， 则 更 新 该 引用 ， 和 否则 将 该 引用 置 空 。 

4) 如 果 尚 未 复制 的 对 象 中 存在 需要 终结 的 对 象 ， 则 将 其 加 入 终结 队列 ， 然 后 回 到 第 1 
步 ， 并 以 终结 队列 作为 新 的 根 进行 追踪 。 需 要 注意 的 是 ， 在 第 二 轮 执 行 过 程 中 将 不 会 再 有 需 
要 终结 的 对 象 产 生 9。 

5) 如 果 虚 引用 的 目标 对 象 并 未 得 到 复制 ， 则 将 其 加 入 ReferenceQueue 里 。 然 后 回收 器 
将 从 该 对 象 开 始 完成 虚 ”可 达 对 象 的 追踪 与 复制 。 需 要 注意 的 是 ， 回 收 器 不 会 将 任何 虚 引 用 
置 空 ， 这 一 操作 必须 由 开发 者 显 式 操作 。 

尽管 上 述 步骤 是 以 复制 式 回 收 器 作为 原型 来 描述 的 ,但 这 一 过 程 同 样 也 适用 于 标记 一 清 
扫 回 收 。 但 是 ， 为 Java 的 弱 引 用 语义 设计 引用 计数 版 本 的 实现 却 显得 相当 困难 。 一 种 实现 
策略 是 在 正常 的 引用 计数 中 忽略 来 自 软 引用 、 弱 引用 、 虚 引用 的 贡献 (统称 为 非 强 引用 )， 
并 在 对 象 中 使 用 一 个 独立 的 位 来 反映 其 是 否 存 在 非 强 引 用 来 源 。 我 们 同样 也 可 以 通过 一 个 独 
立 的 位 来 记录 对 象 是 否 包含 终结 方法 。 除 此 之 外 ， 系 统 可 能 还 需要 通过 一 张 全 局 的 表 来 记录 
每 个 弱 引 用 目标 对 象 的 引用 来 源 。 我 们 将 该 表 称 为 反 向 引用 表 (Reverse Reference Table). 

由 于 引用 计数 并 不 会 像 追踪 式 回收 器 一 样 发 起 单独 的 回收 调用 ， 所 以 必须 引入 一 些 其 他 
的 启发 式 方法 来 判定 何 时 置 空 软 引 用 ， 而 这 一 操作 需要 自动 执行 。 在 这 一 方案 下 ， 最 简单 的 
实现 方案 可 能 是 将 对 象 的 软 引用 来 源 也 ( 像 正 常 引用 一 样 ) 计 入 引用 计数 中 ， 而 当 其 强 引 用 
被 置 空 时 ， 回 收 右 将 使 用 启发 式 方法 来 判定 是 否 需 要 回收 该 对 象 ， 以 及 是 否 需 要 处理 其 更 弱 
的 来 源 引 用 。 

如 果 某 一 对 象 的 正常 引用 ( 强 引 用 ) 变 为 零 ， 则 该 对 象 将 被 回收 (同时 减少 其 子 节点 的 
引用 计数 )， 除 非 其 是 非 强 引用 的 目标 并 需要 终结 。 如 果 对 象 头 部 的 标记 位 显示 其 存在 至 少 
一 个 非 强 引用 来 源 ， 则 我 们 必须 从 反 向 引用 表 中 找 出 其 所 有 非 强 引用 来 源 ， 并 执行 如 下 所 示 
的 流程 来 处 理 这 些 引用 对 象 (Reference 对 象 )。 引 用 的 处 理应 当 依照 从 强 到 弱 的 顺序 。 

弱 引 用 : 将 弱 引 用 置 空 ， 并 将 需要 终结 的 对 象 添 加 到 待 终结 队列 。 

终结 方法 引用 : 将 对 象 加 入 待 终 结 队 列 ， 这 一 操作 需要 正常 增加 对 象 的 引用 计数 ， 因 此 
其 引用 计数 将 会 恢复 到 1。 与 此 同时 ， 清 空 对 象 尖 部 中 包含 有 终结 方法 的 位 。 

BSA: 如 果 目 标 对 象 存在 终结 方法 ， 则 无 需 任何 操作 。 如 果 该 对 象 存在 来 自 虚 对 象 的 
引用 ， 则 需 将 虚 对 象 加 入 用 户 指 定 的 队列 中 ， 同 时 标记 其 已 经 入 队 。 为 避免 虚 引 用 的 目标 对 
象 被 回收 ， 需 要 增加 目标 对 象 的 引用 计数 。 当 用 户 显 式 置 空虚 对 象 中 的 虚 引 用 时 ， 如 果 其 已 
经 人 队 ， 则 减少 目标 对 象 的 正常 引用 计数 值 ， 回 收 器 在 自动 回收 虚 对 象 时 也 需 如 此 。 

除 此 之 外 有 一 些 特殊 的 情况 需要 注意 。 当 回收 某 一 Reference 对 象 时 ， 我 们 需要 将 其 从 
反 向 引用 表 中 移 除 ， 同 理 ， 当 用 户 显 式 清空 Reference 对 象 时 也 需 执 行 相 同 的 操作 。 

当 回 收 占 发 现 环 状 垃圾 时 还 有 一 些 额 外 的 技巧 。 在 对 环 状 垃 圾 进行 处 理 之 前 ， 我 们 需要 
先 判 断 其 中 的 某 个 对 象 是 否 存 在 软 引 用 来 源 ， 若 结果 为 真 ， 则 将 环 状 垃圾 全 部 保留 ， 但 仍 需 
周期 性 地 进行 这 一 检测 。 如 果 环 状 垃圾 中 的 所 有 对 象 都 不 存在 软 引 用 来 源 ， 但 某 些 对 象 存在 


© Barry Hayes 指出 ， 在 如 下 场景 可 能 会 出 现 问题 : 假设 弱 对 象 wl 从 某 个 需要 终结 的 对 象 x 可 达 ， 同 时 wl 又 
引用 了 男 一 个 需要 终结 的 对 象 y， 而 y 又 被 另 一 个 弱 对 象 w2 引用 。 也 就 是 说 ，wl 和 w2 两 个 弱 对 象 均 引 用 
了 对 象 y。 如 果 w2 强 可 达 ， 则 其 将 被 置 空 ， 但 如 果 wd 仅 从 x 可 达 ， 则 其 将 会 保留 。 这 一 情况 下 ， 如 果 对 
象 了 的 终结 方法 将 其 复活 则 会 产生 问题 ， 因 为 对 象 y 的 历史 不 可 达 导 致 w2 被 置 空 ,但 此 时 对 象 y 又 重新 变 
成 强 可 达 。 不 幸 的 是 ， 这 一 问题 似乎 是 Java 所 定义 的 弱 对 象 与 终结 化 机 制 与 生 俱 来 的 问题 。 
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弱 引 用 来 源 〈 即 存在 来 自 弱 对 象 的 引用 )， 则 我 们 需要 自动 将 这 些 弱 对 象 全 部 置 空 ， 并 将 所 
有 需要 终结 的 对 象 加 入 待 终结 队列 。 最 后 ， 如 果 上 述 情况 都 未 发 生 ， 但 环 中 的 某 些 对 象 存在 
虚 引 用 来 源 ， 则 我 们 需要 保留 整个 环 ， 并 将 引用 环 中 对 象 的 虚 对 象 加 入 用 户 指定 的 队列 中 。 
如 果 环 中 的 所 有 对 象 都 不 存在 非 强 引用 来 源 ， 且 都 不 需要 终结 ， 则 可 以 回收 整个 环 。 


12.2.3 ”使 用 虚 对 象 控制 终结 顺序 


假设 有 两 个 对 象 ，A AB, 我们 希望 它们 的 终结 顺序 是 先 A 后 B。 一 种 实现 策略 是 创建 虚 
WR A RAMA A 的 虚 引 用 。 除 此 之 外 ，A' 的 
类 型 应 该 是 对 Java 的 PhantomReference 的 i" 展 ， ERB 
其 将 持 有 一 个 指向 对 象 B 的 强 引用 ， 以 避免 对 象 
B 被 提早 终结 ?。 图 12.5 演示 了 这 一 情况 。 


一 旦 对 象 A'( 即 对 象 A 的 虚 引 用 来 源 ) 被 “Lobe! "LJ 
加 入 到 用 户 指定 的 队列 ， 意 味 着 对 象 A 已 经 从 ' H 
应 用 程序 不 可 达 ， 并 且 A 对 应 的 终结 方法 已 经 rd aT ] 


运行 过 ， 这 是 因为 终结 队列 可 达 要 比 虚 可 达 的 强 
度 更 高 。 然 后 我 们 将 虚 对 象 A' 指 向 A 的 虚 引 用 图 12.5 按 序 终结 。 我 们 希望 在 对 象 A 和 B 


置 空 ， 再 将 其 指向 B 的 强 引用 置 空 ， 如 此 一 来 ， PORER E R A 
对 象 B 的 终结 方法 将 在 下 一 轮回 收 中 得 到 调用 。 Ji Bo BITRA 包含 了 对 象 A 的 虚 
最 后 我 们 再 把 虚 对 象 从 全 局 对 象 表 中 删除 ， 则 虐 引用 以 及 对 象 B 的 强 引用 


对 象 本 身 也 将 得 到 回收 。 我 们 很 容易 将 该 策略 进行 推广 ， 进 而 实现 三 个 或 者 更 多 对 象 的 终结 
顺序 控制 ， 所 付出 的 代价 是 在 两 两 对 象 之 间 通 过 虚 对 象 来 施加 终结 顺序 限制 。 

终结 顺序 的 控制 只 能 通过 虚 对 象 完成 ， 弱 对 象 无 法 胜任 。 对 于 图 12.5 所 示 的 状态 ， 如 
果 我 们 将 虚 对 象 蔡 换 为 弱 对 象 ， 则 当 对 象 A 不 可 达 时 ，A' 中 的 弱 引用 将 被 置 空 ， 且 A' 将 
被 添加 到 用 户 指定 的 队列 中 。 此 时 我 们 可 以 将 A' 中 指向 B 的 强 引用 置 空 ， 但 不 幸 的 是 ， 置 
空 A' 中 弱 引 用 的 操作 将 发 生 在 A 的 终结 方法 执行 之 前 (因为 弱 引 用 的 强度 高 于 终结 方法 引 
用 一 一 译 者 注 )， 此 时 我 们 将 很 难 知 道 A 的 终结 方法 何 时 执行 完毕 ， 因 此 对 象 B 的 终结 方法 
可 能 会 先 得 到 执行 。 故 意 将 虚 引 用 的 强度 设计 得 比 终结 方法 引用 更 低 ， 目 的 正在 于 确保 只 有 
当 对 象 的 终结 方法 执行 完毕 之 后 ， 其 虚 引 用 来 源 才 会 被 加 入 到 用 户 指定 的 队列 。 


12.2.4” 弱 指针 置 空 过 程 的 竞争 问题 


在 12.1 节 我 们 提 到 ， 某 些 特定 的 编译 优化 可 能 会 引发 竞争 ， 进 而 可 能 导致 终结 方法 被 
过 早 地 调用 。 弱 指针 也 存在 同样 的 问题 ， 这 一 竞争 也 可 能 导致 弱 指 针 被 过 早 地 置 空 。 


12.2.5 ” 弱 指 针 置 空 时 的 通知 


在 弱 引 用 机 制 之 上 ， 某 些 应 用 程序 可 能 需要 在 特定 的 弱 引 用 被 清空 时 得 到 通知 ( 虚 引 用 
可 以 通知 应 用 程序 对 象 已 被 终结 ， 而 弱 引 用 则 可 以 通知 应 用 程序 对 象 可 能 将 要 终结 )， 然 后 
再 执行 某 些 适 当 的 动作 。 因 此 ， 弱 引用 机 制 通常 也 会 支持 通知 ， 其 实现 策略 一 般 是 将 弱 对 象 
添加 到 开发 者 指定 的 队列 中 。 例 如 ，Java 的 ReferenceQueve 内 建 类 便 是 以 此 为 目的 设计 的 ， 
应 用 程序 既 可 以 对 其 进行 轮 询 ， 也 可 使 用 阻塞 式 的 操作 来 获取 元 素 (或 者 附加 额外 的 超时 时 


O 在 Java 内 建 引用 类 的 派生 类 中 增加 一 个 域 来 持 有 强 引用 (而 非 新 增 一 种 特殊 的 弱 引 用 )。 
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间 )。 应 用 程序 也 可 以 检测 某 个 给 定 的 弱 对 象 是 否 已 经 加 入 到 某 个 队列 中 ( Java 只 允许 弱 对 
象 最 多 被 加 入 到 一 个 队列 中 )。 回 收 器 在 对 弱 指 针 的 多 次 遍历 过 程 中 可 以 很 轻松 地 实现 弱 对 
象 的 人 队 。 许 多 语言 都 增加 了 类 似 的 通知 机 制 。 


12.26 ”其 他 语言 中 的 弱 指 针 


Java 支持 多 种 强度 的 弱 引 用 ， 因 而 我 们 单独 对 其 进行 描述 。 除 此 之 外 ， 其 他 语言 还 支持 
一 些 不 同 的 或 者 额外 的 弱 引 用 特征 。 

许多 Lisp 实现 支持 弱 数 组 与 弱 向 量 9 ， 它 们 仅仅 是 弱 对 象 的 简单 集合 : 当 某 一 对 象 O 不 
再 强 可 达 时 ， 回 收 带 会 将 弱 数 组 或 弱 向 量 中 所 有 指向 O 的 弱 引 用 置 空 。 

某 些 Lisp 实现 还 支持 弱 哈 希 表 ， 其 通常 包括 3 种 类 型 。 第 一 种 类 型 为 弱 键 (weak key), 
即 键 为 弱 引 用 但 值 为 强 引 用 ， 一旦 某 个 键 - 值 对 的 键 不 再 强 可 达 ， 回 收费 将 从 哈 希 表 中 移 
除 该 键 - 值 对 。 此 种 类 型 的 哈 希 表 适 用 于 规范 化 表 或 者 特定 缓存 的 实现 。 第 二 种 类 型 为 弱 值 
(weak value)， 即 回收 器 在 某 个 键 对 应 的 值 不 再 强 可 达 时 移 除 该 键 -- 值 对 。 第 三 种 类 型 同时 
支持 弱 键 和 弱 值 ， 只 要 其 中 的 一 个 不 再 强 可 达 ， 回 收 器 便 会 移 除 该 键 - 值 对 。 

某 些 Lisp 实现 支持 弱 - 5 (weak-AND) 和 弱 - 或 (weak-OR) 对 象 ， 这 些 对 象 都 属于 
潜在 的 弱 对 象 ， 其 工作 模式 如 下 。 只 要 弱 - 与 对 象 有 一 个 元 素 不 再 强 可 达 ， 回 收回 便 会 将 其 
中 的 所 有 引用 置 空 ， 这 与 Lisp 中 的 AND 运算 符 类 似 ， 即 只 要 有 一 个 参数 为 空 ， 则 返回 值 为 
空 。 与 之 相对 的 是 弱 -或 对 象 ， 只 有 当 其 中 的 所 有 元 素 都 不 再 强 可 达 之 后 ， 回 收 器 才 会 将 其 
中 的 所 有 引用 置 空 。 读 者 可 以 从 Platform Independent Extensions to Common Lisp ORME £ 
的 细节 以 及 结论 ， 包 括 弱 关联 (weak associations), 9345 — #4 (weak AND-mapping), 4% 
或 一 映射 (weak OR-mapping), 43K 5&5 KH ( weak association list)， 以 及 我 们 前 面 曾经 讨论 
过 的 弱 哈 希 表 。 

寄生 对 组 (ephemerons) [Hayers, 1997] © ÆI gE — 值 对 组 的 一 种 特殊 实现 形式 ， 它 可 以 
用 于 维护 依附 于 其 他 对 象 的 信息 。 假 设 我 们 需要 通过 额外 的 表 将 信息 I 与 对 象 O 相关 联 ， 此 
时 我 们 便 可 使 用 寄生 对 组 ， 并 以 0 作为 键 、 以 工作 为 值 。 寄 生 对 组 的 语义 如 下 : 寄生 对 组 对 
键 的 引用 为 弱 引 用 ， 当 键 不 为 空 时 ， 其 对 值 的 引用 为 强 引 用 ， 反 之 ， 当 键 变 为 空 时 ， 其 对 值 
的 引用 将 变 为 弱 引 用 。 在 我 们 的 案例 中 ， 初 始 情况 下 寄生 对 组 对 O 的 引用 为 弱 引 用 ， 对 工 的 
引用 为 强 引 用 。 一 旦 0 被 回收 ， 则 键 的 弱 引 用 将 被 置 空 ， 这 将 导致 其 对 工 的 引用 降级 为 弱 引 
用 。 因 此 ， 只 要 对 象 0 依然 存活 ， 信 息 工 便 不 会 被 回收 ， 而 一 旦 对 象 0 死亡， 则 信息 I 便 
可 能 成 为 垃圾 并 被 回收 。 具 有 通知 机 制 的 弱 键 / 强 值 对 组 或 多 或 少 可 以 模拟 寄生 对 组 的 实现 
( 收 到 键 被 置 空 的 通知 之 后 将 值 置 空 ， 或 者 将 值 降级 为 弱 引 用 )， 但 一 个 细微 的 区 别 在 于 ， 即 
使 寄生 对 组 中 的 键 从 其 值 强 可 达 ， 也 不 会 对 键 的 可 达 性 造成 影响 。 也 就 是 说 ， 即 使 1 引用 了 
OO， 寄生 对 组 依然 可 以 确保 O 能 够 得 到 回收 ， 但 弱 对 组 实现 方式 则 不 可 能 将 O 回收 。 如 果 
不 借助 于 寄生 对 组 ， 则 达到 相同 目的 的 唯一 方式 是 确保 从 I 到 O 的 任意 一 条 路 径 中 都 至 少 包 
含 一 个 弱 引 用 。 

寄生 对 组 的 实现 概要 如 下 (我 们 忽略 弱 指 针 或 终结 机 制 的 实现 形式 )。 首 先 ， 从 根 开始 
对 强 指 针 进 行 追踪 ， 如 果 发 现 寄生 对 组 ， 则 只 记录 而 不 追踪 。 然 后 对 寄生 对 组 集合 重复 进行 


O 数组 可 能 会 是 多 维 的 ， 而 向 量 则 通常 只 是 一 维 的 ， 它 们 之 间 的 区 别 并 不 影响 弱 引 用 语义 。 
© http://clisp.cons.org. 
© Hayers 把 寄生 对 组 的 发 明 归 功 于 George Bosworth. 
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如 下 迭代 : 如 果 某 一 寄生 对 组 的 键 强 可 达 ， 则 从 其 值 开 始 进 行 追踪 ， 并 将 其 从 寄生 对 组 记 
录 中 移 除 。 这 一 过 程 可 能 会 追踪 到 其 他 寄生 对 组 的 键 ， 也 可 能 会 发 现 新 的 寄生 对 组 并 将 其 记 
录 。 最 终 我 们 将 得 到 一 个 集合 ， 该 集合 要 么 为 空 ， 要 么 其 中 寄生 对 组 的 键 均 不 可 达 。 最 后 ， 
我 们 将 这 些 寄生 对 组 的 键 置 空 ， 如 果 其 值 不 可 达 也 将 其 置 空 。 另 外 ， 我 们 还 可 以 使 用 通知 机 
制 并 将 键 不 可 达 的 寄生 对 组 加 入 到 某 一 队列 ， 但 这 可 能 会 引入 对 象 的 复活 问题 。 或 许 更 好 的 
解决 方案 是 清空 寄生 对 组 的 域 ， 并 将 其 键 值 组 成 一 个 新 的 普通 对 组 传递 给 终结 函数 。 

在 Java 和 Lisp 之 外 ， 许 多 其 他 语言 (或 其 某 些 实现 ) 也 支持 弱 引 用 ， 包 括 Action 
Script, C++ (例如 Boost 库 )、Haskell、JavaScript、OCAML python, Smalltalk 等 。 还 有 
一 些 语言 已 经 计划 在 其 未 来 的 版 本 中 引入 弱 引 用 语义 [Donnelly 等 ，2006]。 


12.3 需要 考虑 的 问题 


本 章 我 们 介绍 了 终结 机 制 以 及 弱 指 针 这 两 个 “特定 语言 相关 ”的 概念 ， 它 们 基本 已 被 认 
为 是 自动 内 存 管理 领域 的 一 部 分 。 自 动 内 存 管理 对 于 软件 工程 学 来 说 十 分 重要 ， 以 此 为 基础 
可 以 更 简单 地 实现 复杂 系统 的 正确 构建 ， 但 在 此 之 外 ， 为 解决 一 些 特定 的 问题 又 衍生 出 终结 
机 制 和 弱 指 针 等 编程 语言 扩展 语义 一 一 而 自动 内 存 管 理 机 制 则 是 这 些 扩展 语义 的 实现 基石 。 

如 果 需 要 为 指定 的 语言 设计 回收 器 和 运行 时 系统 ， 则 设计 者 所 需 关 注 的 大 部 分 内 容 都 已 
经 确定 ， 即 语言 自身 的 要 求 是 什么 。 本 章 我 们 所 涉及 的 内 容 ， 特 别 是 在 终结 方面 所 要 做 出 
的 种 种 选择 ， 更 多 是 在 新 语言 的 设计 中 需要 考虑 的 问题 。 类 似 地 ， 弱 指针 机 制 也 存在 多 种 选 
择 ， 例 如 应 当 提 供 哪 些 “ 弱 ”数据 结构 ， 需 要 提供 多 少 种 强度 的 引用 等 ， 这 些 同样 也 是 设计 
新 语言 时 需要 多 考虑 的 问题 。 

如 果 编 程 语 言 需要 支持 终结 机 制 与 弱 引 用 ， 那 么 回收 器 和 运行 时 系统 的 实现 者 需要 更 加 
关注 分 配 与 回收 技术 的 选择 与 设计 ， 包括: 

o 弱 指 针 与 终结 机 制 通常 需要 额外 的 追踪 过 程 。 这 些 额 外 的 追踪 过 程 通常 可 以 很 快 完 
成 ， 因 此 通常 不 会 造成 性 能 问题 。 但 是 ， 这 些 机 制 的 引入 会 增加 基础 回收 算法 的 复 
杂 性 ， 进 而 需要 进行 相当 仔细 的 设计 。 因 此 ， 最 好 是 在 设计 之 初 便 考虑 这 些 因素 ， 
而 非 在 后 期 引入 这 些 机 制 。 韦 庸 置疑 ， 对 终结 机 制 和 弱 引 用 这 两 种 语义 的 深入 理解 ， 
对 其 推荐 实现 策略 的 真正 掌握 ， 对 于 编程 语言 的 实现 都 是 十 分 重要 的 。 

某 些 机 制 (特别 是 Java 中 某 些 强 度 的 弱 引 用 ) 要 求 回收 器 在 同一 时 刻 将 堆 中 所 有 相关 
弱 引 用 全 部 置 空 。 这 一 要 求 在 万 物 静止 式 回收 器 中 实现 起 来 相对 容易 ， 但 在 并 发 环 
境 下 却 需要 一 些 额外 的 机 制 来 保证 。 对 弱 引 用 进行 遍历 可 能 需要 对 某 一 共享 标记 进 
行 检查 ， 还 可 能 需要 引信 额外 的 同步 机 制 来 保证 回收 器 和 赋值 器 线程 对 存在 弱 引用 
的 对 象 做 出 相同 的 存活 性 判定 ， 也 就 是 说 ， 当 回收 器 尝试 原子 性 地 清除 一 组 弱 引 用 
时 ， 赋 值 器 可 能 会 在 同一 时 刻 尝试 获取 某 个 相关 对 象 的 强 引 用 ， 这 一 过 程 中 可 能 存 
在 的 竞争 问题 需要 引入 同步 来 解决 。 这 一 竞争 问题 并 非 Java 弱 引 用 机 制 的 特有 问题 ， 
而 是 所 有 同时 支持 弱 指 针 和 并 发 回收 的 语言 都 会 面临 的 潜在 问题 。 

弱 指 针 和 终结 机 制 的 实现 复杂 度 较 高 ， 且 在 某 些 情况 下 我 们 还 需要 原子 性 地 将 一 组 
弱 引 用 集 置 空 ， 因 此 我 们 可 以 将 其 处 理 过 程 放 在 并 发 回收 器 的 万 物 静止 阶段 ， 或 者 
使 用 锁 来 替代 更 加 复杂 的 无 锁 (lock-free) 或 者 无 等 待 (wait-free) 技术 。 我 们 将 在 第 
13 章 介绍 如 何 控制 对 数据 结构 的 并 发 访问 。 

o 在 Java 语言 中 ， 回 收 器 还 需要 在 每 个 回收 周期 中 判定 是 否 需 要 将 软 引用 置 空 。 
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并 发 算法 预备 知识 


并 发 回收 算法 早 在 20 世纪 70 年 代 就 开始 得 到 研究 [Steele，1975]。 尽 管 长 期 以 来 多 处 
理 器 技术 仅 应 用 在 很 少 一 部 分 场景 下 ， 但 在 当下 ， 多 处 理 器 技术 已 经 得 到 了 大 范围 的 商业 化 
应 用 ， 甚 至 连用 于 本 书写 作 的 笔记 本 计算 机 都 拥有 四 核 处 理 器 。 除 此 之 外 ， 处 理 器 时 钟 速度 
的 增长 已 经 不 再 像 过 去 几 十 年 那样 可 以 带 来 性 能 的 飞跃 ， 因 而 开发 者 提升 程序 速度 的 唯一 途 
径 只 能 是 充分 利用 多 核 来 处 理 相 同 的 任务 。 因 此 ， 编 程 语言 实现 需要 支持 并 发 编程 ， 其 运 
行 时 系统 和 垃圾 回收 器 也 应 当 对 并 发 环境 有 着 良好 的 支持 。 后 续 章 节 将 深入 介绍 并 行 回收 
( parallel collection), JF El (concurrent collection)、 实 时 回收 (real-time collection)， 但 
在 此 之 前 ， 我 们 首先 需要 了 解 这 些 回 收 技术 在 逻辑 和 物理 并 行 方面 所 依赖 的 基本 概念 、 算 
法 、 数 据 结 构 ， 包 括 : 硬件 相关 内 容 、 内 存 一 致 性 模型 (memory consistency model)、 原 子 
更 新 原 语 、 前 进 保 障 ( progress guarantee)、 互 斥 算法 、 工 作 共 享 与 结束 检测 (termination 
detection)、 并 发 数据 结构 ， 最 后 将 介绍 一 种 新 兴 模 型 : 事务 内 存 (transactional memory ) 。 


13.1 硬件 


为 了 理解 并 行 回收 与 并 发 回收 的 正确 性 以 及 性 能 ， 我 们 有 必要 先 掌握 多 处 理 器 硬件 的 相 
关 特 性 。 本 节 给 出 了 如 下 几 个 关键 概念 的 定义 和 综述 ， 包 括 : 处 理 器 与 线程 (多 处 理 器 、 多 
核 、 多 程序 、 多 线程 )、 互 联 (interconnect)、 内 存 与 高 速 缓存 9。 


13.1.1 处理 器 与 线程 


处 理 器 (processor) 是 硬件 执行 指令 的 单元 。 线 程 (thread) 是 单一 顺序 控制 流 ， 是 软 
件 执行 的 具体 化 。 线 程 的 状态 可 以 是 运行 中 (running) (也 称 调 度 中 (scheduled) )、 可 运行 
(ready to run)， 或 者 是 为 等 待 某 些 条 件 而 被 阻塞 (blocked)， 例 如 等 待 消息 的 到 来 、 输 入 / 输 
出 的 完成 ， 或 者 到 达 特 定 的 时 间 。 调 度 器 (scheduler) 通常 是 操作 系统 组 件 ， 其 功能 是 确定 
在 任意 时 刻 哪 些 线程 应 当 在 哪些 处 理 器 上 执行 。 如 果 某 个 线程 被 调度 器 从 某 个 处 理 器 换 出 
(其 状态 从 运行 中 转变 为 可 运行 或 者 被 阻塞 )， 则 当 其 下 一 次 被 调度 时 很 可 能 会 在 另 一 个 不 同 
的 处 理 器 上 和 运行。 当然， 调度 器 也 允许 线程 和 处 理 器 之 间 存 在 一 定 的 亲 和 性 (affinity) 

某 些 处 理 器 硬件 支持 多 个 逻辑 处 理 器 共用 一 条 指令 流水 线 ， 该 技术 称 为 同时 多 线程 
(simultaneous multithreading, SMT) 或 者 超 线 程 (hyperthreading)。 这 一 概念 会 给 我 们 的 定 
义 带 来 一 定 的 麻烦 。 在 我 们 的 术语 中 ， 逻 辑 处 理 器 通常 被 称 为 线程 ， 但 在 此 处 ， 同 时 多 线程 
处 理 器 则 可 以 看 作 是 多 OZH) 处 理 器 ， 并 可 以 独立 进行 调度 ， 因 而 线程 这 一 概念 便 只 能 代 
表 软 件 实体 。 

多 处 理 器 (multiprocessor) 是 包含 多 个 处 理 器 的 计算 机 。 片 上 多 处 理 器 (chip multiprocessor, 
CMP) 是 指 在 单个 集成 电路 芯片 上 集成 多 个 处 理 器 的 技术 ， 也 称 多 核 处 理 器 (multicore processor) 
甚至 众 核 处 理 器 (many-core processor)。 抛 开 并 发 多 处 理 器 的 概念 不 谈 ， 多 线程 (multithread) 是 


O 本 节 的 相关 内 容 从 Herlihy 和 Shavit [2008] 的 文献 中 受 惠 颇 多 ， 读 者 可 以 通过 该 书 获取 更 多 的 相关 内 容 。 
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指使 用 多 个 线程 的 软件 ， 且 每 个 线程 可 能 在 多 个 处 理 器 上 并 发 运行 。 多 程序 ( multiprogram) 是 
指 在 单一 处 理 吕 上 执行 多 个 进程 或 者 线程 的 软件 。 


13.1.2 ”处 理 器 与 内 存 之 间 的 互联 


多 处 理 器 与 集群 计算 、 云 计算 或 者 分 布 式 计算 的 区 别 在 于 ， 前 者 存在 每 个 处 理 器 都 可 以 
直接 访问 的 共享 内 存 。 处 理 器 对 共享 内 存 的 访问 需要 以 某 种 互联 网 络 作为 媒介 。 最 简单 的 互 
联 方式 是 处 理 器 和 内 存 之 间 使 用 单个 共享 总 线 (bus) 来 传递 信息 。 我 们 可 以 简单 地 将 内 存 访 
问 操作 看 作 是 处 理 器 和 内 存单 元 之 间 的 消息 通信 ， 每 次 通信 所 需 的 时 间 可 能 会 达到 上 百 个 处 
理 器 时 钟 周期 。 单 个 总 线 的 原始 速度 相当 快 ， 但 该 速度 在 多 处 理 器 同时 发 起 请 求 时 却 仍然 会 
成 为 瓶颈 。 带 宽 最 高 的 互联 方式 可 能 是 在 处 理 器 和 内 存 两 两 之 间 建 立 私 有 通道 ， 但 该 方案 所 
需 的 硬件 资源 却 会 正比 于 处 理 器 和 内 存单 元 数量 的 乘积 。 为 获取 更 高 的 整体 带宽 (整个 系统 
中 处 理 器 和 内 存在 一 秒 内 可 以 传输 的 数据 量 )， 将 内 存 分 割 成 多 个 单元 也 是 一 种 不 错 的 方案 。 
另外 ， 处 理 器 与 内 存 之 间 的 数据 传输 通常 都 是 以 高 速 缓存 行 (参见 13.1.4 节 ) 而 非 单独 的 字 
或 者 字 节 为 单位 的 。 

对 于 更 大 的 片上 多 处 理 器 ， 一 次 内 存 访问 请 求 在 互联 网 络 中 的 传递 可 能 需要 经 过 多 个 节 
点 ， 例 如 当 互 联网 络 以 网 状 或 者 环 状 方式 组 织 时 。 此 处 的 具体 细节 超出 本 书 的 讨论 范围 ， 但 
我 们 需要 了 解 的 是 ， 内 存 的 访问 时 间 可 能 会 随 着 处 理 器 与 内 存单 元 在 互联 网 络 中 的 位 置 不 同 
而 发 生变 化 。 另 外 ， 相 同 互联 路 径 上 的 并 发 访问 也 可 能 引发 更 大 的 延迟 。 

在 单 总 线 系统 中 ， 当 处 理 器 的 数量 达到 8 ~ 16 个 之 后 ， 总 线 一 般 都 会 成 为 瓶颈 。 但 相 
比 其 他 互联 方式 ， 总 线 的 实现 通常 更 加 简单 且 更 加 廉价 ， 且 总 线 允 许 每 个 单元 侦 听 (listen) 
总 线 中 的 所 有 通信 (有 了 时 也 称 为 窒 探 ( snooping))， 这 可 以 简化 系统 对 高 速 缓存 一 致 性 的 支 
持 (参见 13.1.5 节 )。 

如 果 内 存单 元 与 处 理 器 之 间 相 互 独立 ， 则 该 系统 可 以 称 为 对 称 多 处 理 器 (symmetric 
multiprocessor, SMP) 架构 ， 该 架构 中 每 个 处 理 器 访问 任意 内 存单 元 的 时 间 都 是 相同 的 。 
我 们 同样 也 可 以 将 内 存 与 每 个 处 理 器 相关 联 ， 此 时 处 理 器 在 访问 与 自身 关联 的 内 存 时 速度 
更 快 ， 而 在 访问 与 其 他 处 理 器 关联 的 内 存 时 则 速度 较 慢 。 此 类 系统 被 称 为 非 一 致 内 存 访问 
(non-uniform memory access, NUMA) 架构 。 同 一 系统 可 以 同时 包含 全 局 的 SMP 内 存 以 及 
NUMA 内 存 ， 每 个 处 理 器 还 可 以 拥有 私有 内 存 ， 但 共享 内 存 与 垃圾 回收 技术 的 关联 更 大 9 。 

对 于 处 理 融 与 内 存 之 间 的 互联 ， 最 值得 注意 的 地 方 是 内 存 访问 需要 花费 较 长 的 时 间 ， 且 
互联 网 络 可 能 成 为 系统 的 瓶颈 ， 与 此 同时 ， 不 同 处 理 器 访问 内 存 的 不 同 部 分 可 能 会 花费 不 同 
的 时 间 。 


13.1.3 内存 


尽管 内 存在 物理 上 可 能 会 跨越 多 个 内 存单 元 或 者 处 理 器 ， 但 从 垃圾 回收 器 的 角度 来 看 ， 
共享 内 存 看 起 来 就 是 一 块 由 字 或 者 字 节 组 成 的 单个 地 址 空间 。 由 于 内 存 是 由 多 个 可 以 并 发 访 
间 的 单元 组 成 的 ， 所 以 我 们 无 法 对 其 在 任意 时 刻 的 状态 给 出 一 个 全 局 性 的 描述 ,但 是 内 存 中 
的 每 个 单元 (也 就 是 每 个 字 ) 在 每 个 时 刻 的 状态 都 是 确定 的 。 


、 如 果 可 以 将 线程 绑 定 到 特定 处 理 器 ， 则 处 理 器 私有 内 存 可 以 用 于 线程 本 地 堆 的 实现 (但 是 ， 如 果 某 一 线程 的 
本 地 堆 驻 留 在 特定 处 理 器 私有 内 存 中 ， 该 线程 将 只 能 在 该 处 理 器 上 执行 )。 处 理 器 私有 内 存 也 可 用 于 存放 不 
可 变数 据 的 本 地 副本 。 
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13.14 高 速 缓存 


由 于 内 存 的 访问 速度 如 此 之 慢 ， 所 以 现代 体系 架构 通常 会 在 处 理 器 和 内 存 之 间 增 加 一 到 
多 层 高 速 缓存 ， 其 中 所 记录 的 是 处 理 器 最 近 访 问 过 的 数据 ， 进 而 降低 了 程序 运行 期 间 处 理 器 
需要 访问 内 存 的 次 数 。 高 速 缓存 与 内 存 的 数据 交换 是 以 高 速 缓存 行 (也 称 高 速 缓存 块 ) 为 单 
位 的 ， 通 常 为 32 或 者 64 字 节 。 如 果 处 理 器 在 访问 某 一 地 址 时 发 现 其 所 需要 的 数据 已 经 存在 
于 高 速 缓存 中 ， 这 一 情况 称 为 高 速 缓存 命中 (cache hit)， 反 之 则 称 高 速 缓存 不 命中 (cache 
miss)， 此 时 处 理 器 便 需 访问 更 高 一 级 缓存 ， 如 果 最 高 一 级 缓存 依然 不 命中 ， 则 处 理 器 必须 
WRIA. FLASHER (CMP) 中 某 些 处 理 器 可 能 会 共享 最 高 一 级 缓存 ， 例 如 ， 每 个 处 理 
器 可 能 都 拥有 专属 的 L1 高 速 缓存 ， 但 是 其 会 与 相 邻 的 一 个 存储 器 共享 L2 高 速 缓存 。 各 级 
高 速 缓存 的 缓存 行 大 小 可 以 不 同 。 

当 某 一 级 缓存 出 现 不 命中 ， 且 该 级 缓存 也 无 法 容纳 新 的 缓存 行 时 ， 处 理 器 就 必须 依照 某 
种 策略 从 中 选择 一 个 缓存 行进 行 置换 ， 被 换 出 的 缓存 行 称 作 受害 者 ( victim)。 当 在 缓存 中 写 
人 数据 时 ， 某 些 缓存 使 用 的 是 写 通 (write-through) 策略 ， 即 当 某 一 缓存 行 中 的 数据 得 到 更 
新 时 ， 下 一 级 缓存 中 的 对 应 数据 也 会 尽快 得 到 更 新 。 另 一 种 策略 是 写 回 〈 write-back)， 即 在 
被 修改 的 行 (也 称 脏 行 ) 得 到 换 出 之 前 其 中 的 数据 不 会 写 人 下 一 级 缓存 ， 除 非 进行 显 式 刷 新 
(flush)( 需 要 使 用 特殊 的 指令 ) 或 者 显 式 写 回 (也 需要 特殊 指令 支持 )。 

缓存 置换 策略 在 很 大 程度 上 依赖 于 缓存 的 内 部 组 织 形式 。 全 相 联 ( fully-associative) 2 
存 允 许 内 存 中 任意 地 址 的 数据 放置 到 缓存 的 任意 一 行 中 ， 其 置换 策略 也 可 选择 任意 一 行进 行 
淘汰 。 与 之 对 应 的 另 一 个 极端 是 直接 映射 ( direct-maped) 缓存 ， 即 内 存 中 某 一 地 址 的 数据 
只 能 放置 到 缓存 中 特定 的 行 ， 因 而 其 置换 策略 只 可 能 淘汰 特定 的 缓存 行 。k 路 组 相 联 (k-way 
set-associative) 缓存 是 上 述 两 种 极端 方案 的 折 中 ， 该 策略 允许 内 存 中 特定 地 址 的 数据 映射 到 
缓存 中 的 个 缓存 行 ， 其 置换 策略 也 可 从 这 个 缓存 行 中 选择 一 个 进行 淘汰 。 这 三 种 基本 的 
缓存 置换 策略 还 存在 其 他 一 些 变 种 ， 例 如 受害 者 缓存 (victim cache)， 该 缓存 包括 一 个 使 用 
直接 映射 策略 的 主 缓存 以 及 一 个 额外 的 容量 较 小 的 全 相 联 缓存 ， 从 主 缓存 中 淘汰 的 行将 被 置 
于 全 相 联 缓存 中 。 该 策略 的 缓存 相 联 性 较 高 ， 且 硬件 开销 较 小 。 

高 速 缓存 设计 中 需要 注意 的 另 一 方面 是 各 级 缓存 之 间 的 关系 。 对 于 相 邻 两 级 缓存 ， 如 果 
较 低级 别 缓存 中 的 数据 一 定 会 在 高 级 别 缓 存 中 存在 ， 则 两 级 缓存 为 (严格 ) EX (inclusive) 
关系 。 相 反 ， 如 果 同 一 数据 最 多 只 能 出 现在 两 级 缓存 中 的 一 级 ， 则 两 级 缓存 为 排他 
(exclusive) 关系 。 真 正 的 高 速 缓存 设计 也 可 进行 折 中 ， 即 允许 同一 行 存在 于 两 级 缓存 中 ,但 
也 并 不 强制 要 求 高 级 别 缓存 一 定 要 包容 低级 别 缓存 的 数据 。 

13.1.5 ”高 速 缓存 一 致 性 

高 速 缓存 中 所 持 有 的 数据 在 内 存 中 很 可 能 是 共享 的 。 由 于 每 个 缓存 中 的 数据 不 可 能 同时 
得 到 更 新 (特别 是 对 于 使 用 写 回 策略 的 缓存 )， 所 以 内 存 中 同一 地 址 的 数据 在 不 同 缓存 中 的 
副本 可 能 会 出 现 不 一 致 。 因 此 ， 不 同 处 理 器 在 同一 时 刻 读 取 同 一 地 址 的 数据 ， 可 能 会 获得 不 
同 的 结果 ， 这 显然 是 不 应 该 出 现 的 。 为 解决 这 一 问题 ， 底 层 硬件 通常 会 提供 一 定 级 别 的 高 速 
缓存 一 致 性 支持 。 一 种 经 典 的 高 速 缓存 一 致 性 协议 ( coherence protocol) 是 MESI， 在 该 协 
议 中 ， 每 个 缓存 行 可 能 有 4 种 状态 ， 这 4 种 状态 的 首 字母 构成 了 该 协议 的 名 称 。 

被 修改 (modified): 该 缓存 行 持 有 数据 的 唯一 有 效 副 本 ， 其 中 的 数据 被 修改 过 ,但 尚未 
写 回 内 存 。 
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独占 〈exclusive) : 该 缓存 行 持 有 数据 的 唯一 有 效 副 本 ， 同 时 其 中 的 数据 与 内 存 保持 
一 致 

HS (shared): 其 他 缓存 行 也 可 能 持 有 数据 的 有 效 副 本 ， 同 时 所 有 副本 中 的 数据 均 与 内 
存 保持 一 致 。 

无 效 (Invalide): 缓存 行 中 不 包含 任何 有 效 数据 。 

只 有 当 缓 存 行 的 状态 为 “被 修改 ”"、“ 独 占 ”、“ 共 享 ” 其 中 之 一 时 ， 处 理 器 才 可 以 读 取 该 
缓存 行 ; 只 有 当 缓 存 行 的 状态 为 “被 修改 ”或 “独占 ”时 ， 处 理 器 才 可 以 将 数据 写 人 该 缓存 
行 ， 写 人 之 后 其 状态 将 成 为 “被 修改 ” 。 如 果 处 理 器 需要 从 “无 效 ” 缓 存 行 中 读 取 数据 ， 则 
系统 的 后 续 行 为 取决 于 该 缓存 行 在 其 他 缓存 中 的 状态 : 如 果 为 “被 修改 "， 则 处 理 器 必须 将 
其 写 回 内 存 ， 并 将 其 状态 置 为 “共享 ”( 或 者 “无 效 ”) ; 如 果 状 态 为 “独占 ”"， 则 只 需 将 其 降 
级 为 “共享 ”( 或 “无 效 ”) ; 如 果 其 状态 为 “共享 ”或 者 “无 效 ”， 则 处 理 器 只 需 简 单 地 从 内 
存 或 者 其 他 缓存 里 状态 为 “共享 ”的 缓存 行 中 加 载 数 据 。 如 果 处 理 器 需要 将 数据 写 人 “无 
效 ” 缓 存 行 中 ， 系 统 的 后 续 行 为 与 读 取 时 的 行为 类 似 ， 唯 一 的 不 同 之 处 在 于 其 他 缓存 行 的 最 
终 状 态 都 将 是 “无 效 ”。 如 果 处 理 器 需要 将 数据 写 入 “共享 ”缓存 行 中 ， 其 必须 先 将 其 他 组 
存 行 降级 为 “无 效 ”。 该 协议 可 以 进行 的 改进 包括 : 以 写 为 目的 读 可 以 在 读 取 完成 之 后 将 其 
他 缓存 行 的 状态 降级 为 “无 效 ”; 写 回 操作 可 以 将 缓存 行 的 状态 从 “被 修改 ”降级 为 “独占 ”; 
令 某 一 缓存 行 失效 的 操作 可 以 将 状态 为 “被 修改 ”的 缓存 行 写 回 内 存 ， 然 后 将 其 状态 置 为 
“无 效 ”。 

MESI 协议 的 关键 之 处 在 于 ,任意 缓存 行 在 同一 时 刻 只 能 被 一 个 处 理 器 写 ， 且 两 个 缓存 
针对 同一 数据 的 缓存 行 永远 不 会 产生 不 一 致 。MESI 协议 的 实现 难点 在 于 ， 当 处 理 器 数量 增 
大 时 算法 的 性 能 会 下 降 ， 这 也 是 所 有 由 硬件 支持 的 缓存 一 致 性 协议 的 共有 问题 。 因 此 ， 更 大 
的 片上 多 处 理 器 逐渐 开始 放弃 内 建 的 缓存 一 致 性 协议 ， 转 而 开始 由 软件 来 管理 一 致 性 ， 此 时 
软件 便 可 选择 任意 类 型 的 缓存 一 致 性 协议 。 即 便 如 此 ， 处 理 器 数量 增 大 时 算法 依然 会 存在 性 
能 问题 ， 但 与 将 算法 固化 在 硬件 中 的 策略 相 比 ， 开 发 者 至 少 可 以 根据 其 具体 需求 选择 更 好 的 
一 致 性 算法 。 

缓存 一 致 性 要 求 引 发 了 另 一 个 问题 ， 即 伪 共 享 ( false sharing): 当 两 个 处 理 器 同时 访问 
并 更 新 位 于 相同 缓存 行 的 不 同 数据 时 ， 由 于 处 理 器 在 写 操作 之 前 必须 将 缓存 的 状态 更 改 为 
“独占 ”， 所 以 两 个 处 理 器 令 对 方 缓存 行 失效 的 操作 会 产生 “乒乓 ”效应 ， 从 而 引发 互联 网 络 
中 大 量 的 一 致 性 通信 ， 并 可 能 引发 额外 的 内 存 读 取 操 作 。 


13.1.6 ”高 速 缓存 一 致 性 对 性 能 的 影响 示例 : 自 旋 锁 


典型 的 互 斥 锁 可 以 通过 AtomicExchange 原 语 实现 ， 如 算法 13.1 所 示 。 后 续 描述 中 我 们 
均 以 首 字母 大 写 的 方式 来 区 分 原子 指令 原 语 ， 我 们 同时 也 使 用 首 字母 小 写 的 loaa 和 store 
来 表示 低级 读 写 操作 ， 并 以 此 避免 与 应 用 程序 和 赋值 器 之 间 的 读 写 接口 混淆 。 锁 的 初始 值 应 
YA, BRA EB. WRIA, ABATE while 循环 中 自 旋 ， 因 而 称 其 为 自 
旋 锁 。 每 次 循环 中 ， 原 子 化 的 “ 读 一 修改 一 写 ” 操 作 都 会 尝试 独占 其 所 在 的 高 速 缓存 行 ， 因 
而 如 果 多 处 理 器 竞争 该 锁 ， 高 速 缓存 行将 会 出 现 “ 兵 乓 ”效应 ， 即 使 对 于 已 经 持 有 锁 的 处 理 
器 也 不 例外 。 更 加 糟糕 的 是 ， 即 使 持 有 锁 的 处 理 器 想 要 释放 锁 ， 其 也 需要 与 其 他 处 理 器 竞争 
该 高 速 缓存 行 的 独占 权 。 此 种 自 旋 锁 实现 方式 被 称 为 “检测 并 设置 ” 锁 ( test-and-set lock), 
尽管 它 并 未 依赖 我 们 后 文 将 要 介绍 的 Testanaset 原 语 。 
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算法 13.1 基于 atomickxchange 原 语 的 自 旋 锁 
exchangeLock(x): 
while AtomicExchange(x, 1) = 1 
fe B #7 
*x < 0 


1 

2 

3 

4 

5 exchangeUnlock(x): 
6 

7 

s AtomicExchange(x, v): 
9 


atomic 
10 old + *x 
“u xX <- V 
12 return old 


算法 13.1 所 描述 的 自 旋 锁 的 实现 方式 会 导致 最 严重 的 一 种 竞争 情况 出 现 ， 因 而 算法 
13.2 所 描述 的 “检测 一 检测 并 设置 ” 锁 (test-and-test-and-set lock) 作为 一 种 更 加 巧妙 的 改进 
版 本 ， 在 许多 程序 中 得 到 应 用 。 其 最 大 的 改进 之 处 在 于 第 9 行 ， 算 法 在 调用 AtomicExchange 
方法 之 前 先 通 过 一 般 的 读 操作 判断 锁 是 否 已 被 占用 ， 因 而 此 处 的 自 旋 操作 只 需 访 问 处 
理 器 自身 的 (已 经 保持 一 致 ) 的 高 速 缓存 ， 无 需 进一步 访问 总 线 。 如 果 锁 位 于 不 可 缓存 
(noncacheable) 的 内 存 中 ， 则 该 线程 可 以 使 用 空 循环 来 等 待 ， 也 可 在 检测 之 间 插 人 硬件 iale 
指令 ， 如 果 等 待 时 间 稍 长 ， 则 在 两 次 检测 之 间 的 等 待 时 间 可 以 呈 指 数 级 别 增 加 或 者 采用 其 他 
类 似 算 法 。 如 果 等 待 时 间 过 长 ， 则 线程 可 以 请 求 操 作 系 统 的 调度 器 介 人 和 人 并 放弃 剩余 时 间 片 ， 
或 者 转 而 采取 等 待 某 一 显 式 信号 的 方式 ， 此 时 便 要 求 锁 的 持 有 者 在 释放 锁 时 发 送信 号 。 


算法 13.2 基于 AtomicExchange 原 语 的 “检测 - 检测 并 设置 ” 自 旋 锁 


testAndTestAndSetExchangeLock(x): 
while testAndExchange(x) = 1 
[Ee ef 


x < 0 


testAndExchange(x): 
while +x = 1 
10 /* Z */ 
n return AtomicExchange(x, 1) 


1 

2 

3 

4 

s testAndTestAndSetExchangeUnlock(x): 
6 

vi 

8 

9 


13.3 节 涵 盖 了 大 部 分 常用 的 硬件 原子 操作 原 语 ， 因 而 在 此 我 们 有 必要 启发 式 地 介绍 如 何 
以 Testandset 原 语 来 实现 “检测 并 设置 ”以 及 “检测 -检测 并 设置 ” 锁 ， 如 算法 13.3 所 示 。 
Testandset 原 语 的 优势 在 于 ， 锁 的 值 与 其 语义 上 的 含义 隐 式 地 保持 一 致 ， 即 0 代表 未 加 锁 ， 
1 代表 已 加 锁 。 如 果 锁 的 值 为 1， 则 处 理 器 不 必 访 问 总 线 ， 也 无 需 以 独占 方式 访问 高 速 缓存 
行 。 原 则 上 讲 , AtomicExchange 原 语 也 具有 相同 的 优点 ， 但 其 需要 判断 锁 的 新 老 值 是 否 相同 ， 
而 不 能 简单 地 判断 其 是 否 为 1。 

算法 13.3 ”基于 Testandset 原 语 的 自 旋 锁 
testAndSetLock(x): 


1 

2 while TestAndSet(x) = 1 
3 je Z ay 
4 
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testAndSetUnlock(x): 
xx < 0 


TestAndSet(x): 
atomic 

10 old <— x 

1 if old = 0 

2 *x 《全 1 

13 return 0 

14 return 1 


w% testAndTestAndSetLock(x): 
17 while testAndTestAndSet(x) = 1 
18 伟人 党 w 


» testAndTestAndSet(x): 


a while +x = 1 
2 [eget #y 
z return TestAndSet(x) 


xs testAndTestAndSetUnlock(x) 
26 testAndSetUnlock(x) 


13.2 ”硬件 内 存 一 致 性 


我 们 假定 共享 内 存 可 以 提供 与 高 速 缓存 相同 的 一 致 性 (coherence) 保障 ， 即 : 不 存在 未 
完成 的 写 操作 。 如 果 两 个 处 理 器 读 取 内 存 中 相同 位 置 的 值 ， 所 获取 的 值 也 是 相同 的 。 大 多 数 
硬件 还 可 以 进一步 保证 : 如 果 两 个 处 理 器 同时 对 内 存 的 相同 位 置 发 起 写 操作 ， 则 其 中 的 一 个 
将 先 于 另 一 个 发 生 ， 同 时 所 有 处 理 器 后 续 读 取 到 的 值 都 将 是 最 后 一 次 写 和 的 值 。 另 外 ， 如 果 
某 一 处 理 器 已 经 读 取 到 了 最 终 的 值 ， 则 在 下 一 次 写 操作 发 生 之 前 ， 其 不 可 能 读 取 到 其 他 值 9。 
也 就 是 说 ， 针 对 内 存 中 任何 特定 位 置 的 写 操作 都 是 经 过 排序 的 ， 且 在 任意 处 理 器 看 来 ， 特 定 
位 置 值 的 变化 顺序 都 是 相同 的 。 

但 是 ， 对 于 程序 在 多 个 位 置 的 写 和 人 (或 者 读 取 ) 操作 ， 硬 件 系统 却 不 能 保证 程序 发 起 操 
作 的 顺序 与 其 在 高 速 缓存 或 者 内 存 中 的 生效 顺序 完全 一 致 ， 更 不 能 保证 其 他 处 理 器 能 够 以 相 
同 的 顺序 感知 到 这 些 地 址 的 数据 变更 。 也 就 是 说 ， 程 序 顺序 (program order) 不 一 定 要 与 内 
存 顺序 (memory order) 完全 一 致 。 读 者 可 能 不 禁 会 问 : 为 何如 此 ? 其 中 的 含义 是 什么 ?前 
一 个 问题 关乎 于 硬件 和 软件 ， 概 括 来 讲 ， 不 要 求 两 者 完全 一 致 是 出 于 性 能 考虑 一 一 严格 一 致 
性 (consistency) 要么 会 耗费 更 多 的 硬件 资源 ， 要 么 会 降低 性 能 ， 或 者 两 者 兼 有 。 对 于 硬 
件 而 言 ， 许 多 处 理 器 会 使 用 写 缓冲 区 (write buffer/store buffer) 来 保存 未 完成 的 内 存 写 人 操 
作 。 写 缓冲 区 本 质 上 是 一 个 < 地 址 ， 数 据 > 对 组 队列 。 正 常情 况 下 ， 写 操作 可 能 会 有 序 执 
ÍT, 但 如 果 某 一 后 发 写 操作 的 目的 地 址 已 经 存在 于 写 缓冲 区 中 ， 则 硬件 可 能 会 将 其 合并 到 队 
列 里 尚未 完成 的 写 操 作 中 ， 这 便 意 味 着 写 操作 可 能 会 出 现 “ 后 发 先 至 ”的 情况 ， 即 较 晚 的 写 


© Java 的 内 存 模型 更 加 宽松 : 如 果 两 个 写 操作 之 间 未 进行 同步 ， 则 允许 处 理 器 在 后 续 执 行 过 程 中 读 取 到 任意 一 
次 写 入 的 值 ， 此 时 该 值 将 可 能 出 现 “ 振 荡 ”。 

© coherence 和 consistency 的 中 文 表达 均 为 “一 致 性 "， 但 两 者 存在 区 别 : coherence 主要 考虑 多 处 理 器 对 同一 
内 存 位 置 的 写 操作 对 于 所 有 的 处 理 器 的 可 见 性 ; 而 consistency 则 主要 考虑 程序 发 起 操作 的 顺序 与 其 在 内 存 中 
的 生效 顺序 之 间 的 关系 ， 且 其 主要 是 针对 不 同 地 址 。 一 一 译 者 注 
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心地 确保 处 理 器 操作 针对 其 自身 的 一 致 性 ， 也 就 是 说 ， 如 果 处 理 器 在 读 取 某 一 位 置 的 值 时 发 
现 该 位 置 存在 未 完成 的 写 操作 ， 则 处 理 器 要 么 通过 直接 硬件 路 径 (速度 较 快 但 开销 较 大 ) 来 
读 取 该 值 ， 要 么 必须 等 写 缓冲 区 刷新 完毕 后 再 从 高 速 缓存 中 读 取 该 值 。 另 一 个 可 能 导致 程序 
操作 被 重 排序 的 原因 是 高 速 缓存 不 命中 。 一 旦 读 取 过 程 中 发 生 高 速 缓存 不 命中 ,许多 处 理 器 
会 将 其 跳 过 并 继续 执行 后 续 指令 ， 进 而 可 能 出 现 后 发 读 / 写 操作 越过 先 发 读 / 写 操作 先 执行 
完毕 的 情况 。 另 外 ， 对 于 使 用 写 回 机 制 的 高 速 缓存 ， 其 中 的 数据 只 有 在 被 淘汰 或 者 显 式 刷新 
时 才 会 写 和 内存， 因此 针对 不 同 缓存 行 的 写 操 作 的 执行 顺序 可 能 会 出 现 大 幅度 调整 。 上 述 各 
种 硬件 方面 的 原因 只 是 说 明 性 的 ， 但 并 非 面面俱到 。 

由 软件 产生 的 重 排序 大 多 是 由 编译 器 造成 的 。 例 如 ， 如 果 编 译 器 已 知 两 个 引用 指向 的 是 
同一 地 址 ， 且 两 个 引用 的 读 取 操 作 之 间 并 无 其 他 写 操 作 会 影响 该 值 ， 则 编译 器 可 能 直接 使 用 
其 第 一 次 读 取 到 的 值 优化 掉 第 二 次 读 操作 。 更 一 般 的 情况 是 ， 如 果 编 译 器 可 以 确保 各 变量 之 
间 均 不 存在 别名 关系 ( 即 不 引用 相同 的 内 存 地 址 )， 则 其 可 以 对 这 些 变 量 的 读 写 操作 以 任意 
方式 重 排 序 ， 因 为 不 论 采 用 何 种 顺序 ， 最 终 的 执行 结果 都 是 相同 的 (对 于 单 处 理 器 而 言 ， 且 
假定 不 存在 线程 切换 )。 读 取 结 果 复 用 以 及 重 排序 策略 可 以 产生 更 高 效 的 代码 ， 且 在 大 多 数 
情况 下 并 不 影响 语义 ， 因 而 许多 编程 语言 都 允许 这 一 策略 。 

从 开发 者 的 角度 来 看 ， 程 序 顺 序 与 内 存 顺序 之 间 缺 乏 一 致 性 显然 是 一 个 潜在 的 问题 ,但 
是 从 硬件 实现 者 的 角度 来 看 ， 如 此 设计 可 以 大 幅 提 升 性 能 并 减少 开销 。 

放宽 一 致 性 要 求 将 会 产生 怎样 的 后 果 ? 第 一 ， 这 可 能 导致 程序 的 执行 完全 背离 开发 者 
的 意图 ， 也 可 能 导致 在 完全 一 致 性 模型 下 可 正常 执行 的 代码 在 更 加 复杂 的 一 致 性 模型 下 产 
生 混 乱 的 执行 结果 。 第 二 ， 锁 相关 等 技术 要 求 硬件 以 某 种 方式 确保 对 不 同 地 址 的 访问 能 够 
有 序 执行 。 各 种 顺序 模型 必须 能 够 区 别 出 3 种 主要 的 访问 原 语 : 读 (read)、 写 (write)、 原 
F (atomic) 操作 9S。 原子 操作 需要 原子 化 的 “ 读 一 修改 - 写 ” 原 语 , 该 原 语 通 常 是 条 件 性 
的 ， 例 如 restandaset。 内 存 一 致 性 对 于 依赖 加 载 (dependent load) 也 十 分 重要 ， 所 谓 依赖 加 
载 ， 即 程序 需要 先 从 地 址 x 加载 数据 ， 然 后 再 从 地 址 了 加载 数 据 ， 但 第 二 次 加 载 操 作 的 地 址 
取决 于 地 址 x 的 加 载 结 果 。 依 赖 加 载 的 一 个 典型 案例 是 沿 着 指针 链 进行 追踪 。 在 完全 一 致 
性 之 外 ， 还 存在 着 许多 较 弱 的 内 存 访问 顺序 模型 ， 我 们 将 选择 其 中 较为 常见 的 进行 介绍 。 


13.2.1 ”内存 屏障 与 先 于 关系 


内 存 屏 障 (memory fence) 是 一 种 处 理 器 操作 ， 它 可 以 阻止 处 理 器 对 某 些 内 存 访问 进行 
重 排序 。 特 别 地 ， 它 可 以 避免 某 些 访问 指令 在 屏障 之 前 发 送 (issue)， 也 可 以 避免 某 些 访问 
指令 被 延迟 到 屏障 之 后 发 送 ， 或 者 两 者 此 可 。 例 如 ， 完 全 读 内 存 屏障 可 以 确保 屏障 之 前 的 所 
有 读 操作 都 能 先 于 屏障 之 后 的 读 操作 执行 。 

先 于 关系 (happens-before) 这 一 概念 则 更 加 规范 化 ， 它 是 指 内 存 访问 操作 在 存储 中 所 应 
遵从 的 发 生 顺 序 。 完 全 读 内 存 屏障 相当 于 是 在 每 两 个 相 邻 读 操 作 之 间 施 加 了 先 于 关系 。 原 子 
操作 通常 会 为 其 内 部 的 所 有 子 操作 施加 完全 内 存 屏障 : 所 有 较 早 的 读 、 写 、 原 子 操作 都 必须 
先 于 较 晚 的 读 、 写 、 原 子 操作 发 生 。 在 先 于 关系 之 外 还 存在 其 他 一 些 模 型 ， 例 如 获取 一 释放 
(acquire-release) 语义 。 在 该 模型 下 ， 获 取 操 作 (acquire operation) (可 以 将 其 看 作 是 获取 锁 ) 

O 某 些 作者 使 用 “同步 ”(synchronising) 这 一 术语 ， 而 本 书 在 此 使 用 “原子 ”(atomic) 这 一 术语 。“ 同 步 ” 这 一 

术语 涵盖 了 这 些 操作 的 原子 性 及 其 对 执行 顺序 的 影响 ， 因 此 “同步 ”与 “原子 ”是 两 个 严格 不 同 的 概念 
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能 够 阻止 较 晚 操作 在 该 操作 之 前 发 生 ， 但 较 早 的 读 写 操作 则 可 以 在 获取 操作 之 后 发 生 ; 释放 
操作 (release operation) 与 之 完全 对 称 : 它 能 够 阻止 较 早 的 操作 在 释放 操作 之 后 发 生 ， 但 是 
较 晚 的 操作 则 可 以 在 释放 操作 之 前 发 生 。 简 而 言 之 ， 处 理 器 可 以 将 获取 一 释放 操作 对 之 外 的 
操作 移动 到 其 内 部 ， 但 却 不 能 将 其 内 部 的 操作 移动 到 外 部 。 临 界 区 (critical section) 便 可 使 
用 获取 - 释放 模型 来 实现 。 


13.2.2 ”内 存 一 致 性 模型 


最 强 的 内 存 一 致 性 模型 当 属 严格 一 致 性 〈strict consitency)， 即 所 有 的 读 、 写 、 原 子 操作 
在 整个 系统 中 的 任意 位 置 都 以 相同 的 顺序 发 生 (occur) ©。 严格 一 致 性 意味 着 所 有 操作 的 发 
生 顺 序 都 满足 先 于 关系 ， 且 这 一 顺序 是 由 某 一 全 局 时 钟 决定 的 。 严 格 一 致 性 是 最 容易 理解 的 
一 种 模型 ， 这 可 能 也 是 大 多 数 开发 者 以 为 硬件 系统 所 遵从 的 顺序 ， 但 这 一 模型 很 难 高 效 地 实 
现 9。 稍 弱 的 一 种 模型 是 顺序 一 致 性 (sequential consistency) 模型 ， 在 该 模型 中 ， 全 局 先 于 顺 
序 只 需要 与 每 个 处 理 器 的 程序 顺序 保持 一 致 即 可 。 相 对 于 其 他 更 加 宽松 的 一 致 性 模型 ， 顺 序 
一 致 性 模型 下 的 编程 更 加 简单 ， 因 而 规模 较 小 的 处 理 器 通常 会 尝试 达到 或 者 接近 顺序 一 致 性 
的 要 求 。 弱 一 致 性 (weak consitency) 会 将 所 有 原子 操作 当 作 完 全 屏障 。 上 文 所 描述 的 获取 一 
释放 模型 通常 被 称 为 释放 一 致 性 (release consitency) 模型 。 因 果 一 致 性 (causal consistency) 
模型 的 强度 介 于 顺序 一 致 性 和 弱 一 致 性 之 间 ， 该 模型 要 求 程 序 所 发 起 的 读 操作 与 其 后 续 的 写 
操作 之 间 必 须 满足 先 于 关系 ,其 目的 在 于 避免 读 操 作对 写 操 作 所 写 入 的 值 造 成 影响 ， 即 对 于 
先 读 取 某 个 值 然 后 再 将 其 写 入 内 存 的 操作 ， 因 果 一 致 性 会 确保 它们 之 间 的 先 于 关系 。 宽 松 一 
致 性 (relaxed consistency) 模型 泛 指 所 有 比 顺序 一 致 性 模型 更 弱 的 模型 。 

硬件 系统 所 允许 的 重 排列 方式 一 定 程度 上 还 取决 于 互联 网 络 和 内 存 系 统 ， 这 便 超出 了 
处 理 器 的 控制 范围 。 表 13.1 展示 了 部 分 知名 处 理 器 家 族 所 允许 的 指令 重 排列 方式 ， 所 有 的 
处 理 器 至 少 都 实现 了 弱 一 致 性 或 者 释放 一 致 性 。 关 于 内 存 一 致 性 模型 的 更 多 内 容 可 以 参见 
Adve 和 Gharachorloo [1995, 1996]. 

表 13.1 内 存 一 致 性 模型 与 可 能 的 重 排列 方式 


重 排列 方式 Alpha | x86-64 POWER SPARC TSO 


原子 操作 一 读 

原子 操作 一 写 

依赖 加 载 

注 : 了 表示 指定 的 操作 可 以 不 遵从 先 于 关系 ， 即 可 以 进行 重 排列 。 


13.3 ”硬件 原 语 
从 某 些 最 早 的 计算 机 开始 ， 处 理 器 就 已 经 提供 了 原子 化 的 “ 读 -修改 - 写 ” 原 语 来 支持 
锁 与 同步 。13.1 节 介 绍 了 两 种 原 语 : atomicexchange 可 能 是 最 简单 的 一 种 硬件 原 语 ， 该 操 


O 此 处 的 “发 生 ”(occur) 是 指 “ 看 起 来 发 生 了 ”一 一 程序 无 法 区 分 这 两 者 之 间 的 区 别 。 
O 根据 相对 效应 ， 完 全 有 序 在 现代 系统 中 甚至 不 存在 一 个 明确 的 定义 。 
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作 既 无 需 任何 计算 ,也 无 需 任何 条 件 判 断 ， 它 只 是 简单 地 将 新 值 写 入 内 存 的 某 一 地 址 ， 并 
原子 性 地 返回 该 地 址 原 有 的 值 ， 且 该 操作 不 会 与 其 他 (原子 性 的 或 非 原子 性 的 ) 写 操作 发 生 
交错 ; Testandset 原 语 同样 也 十 分 简单 ， 它 将 单个 位 设置 为 1， 并 返回 该 位 以 前 的 值 ， 但 
该 操作 可 以 视 为 一 种 条 件 原 语 ， 因 为 只 有 当 原 始 值 为 0 时 该 操作 才 会 将 其 设置 为 1。 其 他 比 
较 知 名 且 应 用 广泛 的 原子 操作 原 语 包括 :“ 比 较 并 交换 ”( compare-and-swap 或 compare-and- 
exchange),“ 加 载 链接 / 条 件 存储 ”( load-linked/store-conditionally 或 load-and-reserve/store- 
conditional); 各 种 不 同 的 原子 自 增 、 原 子 自 减 原 语 ， 特 别 是 “获取 并 增加 ” (fetch-and-add 或 
exchange-and-add)。 我 们 将 顺 次 对 其 进行 介绍 。 


13.3.1 比较 并 交换 
算法 13.4 展示 了 compareAndswap 原 语 以 及 与 其 十 分 相近 的 CompareAndSet 原 语 。 Compare 
Andset 原 语 将 某 一 内 存 地 址 的 值 与 ola 比较 ， 如 果 两 者 相等 ， 则 将 其 值 置 为 new。 该 操作 的 
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返回 值 表示 内 存 中 的 值 是 否 被 更 新 。compareanaswap 原 语 与 之 的 唯一 区 别 在 于 其 返回 值 是 内 
存 地 址 中 原 有 的 值 (不 论 是 否 更 新 成 功 )， 而 非 一 个 布尔 变量 。 尽 管 这 两 种 原 语 的 语义 并 非 
严格 等 价 ， 但 它们 的 使 用 场景 基本 都 是 一 致 的 。 

算法 13.4 compareAndswap 原 语 与 compareAndset 原 语 


CompareAndSwap(x, old, new): 
atomic 


1 

2 

3 

4 

5 *x + new 
6 

7 

s CompareAndSet(x, old, new): 
9 


atomic 
10 curr t +x 
11 £ curr = old 
12 *x + new 
13 return true 
14 return false 


CompareAndswap 通常 用 于 将 某 一 内 存 地 址 的 值 从 一 个 状态 更 新 到 另 一 个 状态 ， 例 如 从 
“被 线程 tl 锁定 ”到 “解锁 *， 再 到 “被 线程 t2 锁定 ”。 算 法 13.5 展示 了 compareandswap 原 
语 的 一 种 常见 用 法 ， 即 先 判断 内 存 地 址 的 当前 值 ， 然 后 再 尝试 原子 性 地 将 其 更 新 ， 该 操作 通 
常 被 称 为 “比较 - 比较 并 交换 ” ( compare-then-compare-and-swap ) CompareAndswap 原 语 潜 
藏 着 一 个 微妙 的 陷阱 ， 即 在 调用 compareanaswap 时 ， 目 标 内 存 地 址 的 值 改变 了 数 次 ， 但 该 
地 址 的 当前 值 却 与 调用 者 之 前 获取 到 的 值 相等 。 某 些 情况 下 这 可 能 不 会 出 现 问题 ， 但 在 其 他 
情况 下 ， 相 同 的 值 并 不 意味 着 相同 的 状态 。 例 如 在 垃圾 回收 中 ， 在 经 历 两 次 半 区 复制 回收 之 
后 ， 某 一 指针 的 目标 对 象 很 可 能 与 其 最 初 的 目标 对 象 完 全 不 同 。compareanaswap 原 语 无 法 探 
测 到 “ 某 个 值 被 修改 ， 然 后 再 被 改 回 原 值 ”的 情况 ， 即 所 谓 的 ABA 问题 (ABA problem), 

算法 13.5 ”尝试 使 用 “比较 并 交换 ”操作 原子 性 地 更 新 状态 
compareThenCompareAndSwap(x): 
if +x = interesting 


1 
2 
3 z 人 表示 下 一 状态 的 值 


CompareAndSwap(x, interesting, z) 
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13.3.2 ”加 载 链接 / 条 件 存 储 


在 LoadLinked 和 StoreConditionally 原 语 中 ， 处 理 器 会 记录 LoadLinked 原 语 所 访问 的 
地 址 ， 并 使 用 处 理 器 的 一 致 性 机 制 来 探测 所 有 针对 该 地 址 的 更 新 操作 ， 从 而 解决 ABA 问题 。 
算法 13.6 描述 了 LoadLinked/StoreConditionally 的 具体 实现 ， 它 要 求 处 理 器 实现 算法 所 描 
述 的 store X, reservation 变量 不 仅 会 被 其 所 属 的 处 理 器 清空 ， 也 会 被 其 他 处 理 器 清空 。 
由 于 所 有 针对 保留 地 址 的 写 操作 都 会 清空 reserved 旗 标 ， 所 以 “比较 - 比较 并 交换 ”操作 
可 以 据 此 来 避免 ABA 问题 ， 如 算法 13.7 Pras. FL, Loadbinked/storeConditionally 原 
语 比 compareandswap 更 加 强大 ， 该 原 语 允许 开发 者 针对 单个 内 存 字 实现 任意 类 型 的 原子 化 
“ 读 一 修改 - 写 ” 操 作 。 算 法 13.8 展示 了 如 何 使 用 LoadLinked/storeconditionally 实现 “ 比 
较 并 交换 "”、“ 比 较 并 设置 ” 原 语 。LoadLinked/storeCconditionally 原 语 还 有 另外 一 个 特征 
需要 注意 : 即使 任何 处 理 器 都 没有 更 新 过 保留 地 址 的 值 ，storeconditionally 原 语 也 有 可 能 
出 现 假 性 失败 。 多 种 低级 硬件 状况 可 能 导致 假 性 失败 ， 其 中 值得 注意 的 是 中 断 的 出 现 ， 包 括 
缺 页 陷阱 、 洲 出 陷阱 、 时 钟 中 断 、L/O 中 断 等 ， 这 些 中 断 均 需要 由 内 核 进行 处 理 。 这 种 失败 
通常 不 会 成 为 问题 ,但 是 如 果 LoadLinked 和 Storeconditionally 之 间 的 某 段 代码 总 是 引发 
陷阱 ， 则 StoreConditionally 操作 可 能 始终 都 会 失败 。 


算法 13.6 ”加 载 链接 / 条 件 存 储 语义 


1 LoadLinked(address): 

2 atomic 

3 reservation + address /* reservation 为 每 处 理 器 变量 */ 

4 reserved + true /* reserved 为 每 处 理 器 变量 */ 

5 return *address 

6 

7 StoreConditionally(address, value): 

8 atomic 

9 if reserved 

10 store(address, value) 

11 return true 

12 return false 

13 

u store(address, value): /* 所 有 处 理 器 均 执 行 相 同 操作 ， 无 需 同步 */ 
15 if address = reservation/» 判断 粒度 也 可 以 是 相同 的 高 速 缓存 行 或 者 其 他 */ 
16 reserved ¢ false 

17 xaddress ¢ value 


算法 13.7 基于 加 载 链接 / 条 件 存 储 实现 原子 性 的 状态 迁移 


observed + LoadLinked(x) 


计算 z 的 新 值 
if not StoreConditionally(x, z) 


返回 并 重新 计算 ， 或 者 解决 冲突 


本 nn = 


算法 13.8 ”基于 加 载 链接 / 条 件 存储 实现 比较 并 交换 


1 compareAndSwapByLLSC(x, old, new): 
2 previous + LoadLinked(x) 
if previous = old 


w 


O 线程 上 下 文 切换 也 会 导致 reservation 变量 被 清空 。 
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StoreConditionally(x, new) 
return previous 


previous ¢ LoadLinked(x) 
if previous = old 
return StoreConditionally(x, new) 
u return false 


4 
5 
6 
7- compareAndSetByLLSC(x, old, new): 
8 
9 
10 


由 于 LoadLinked/StoreConditionally 原 语 可 以 优雅 地 解决 ABA 问题 ， 所 以 我 们 更 加 
倾向 于 用 其 替代 可 能 产生 ABA 问题 的 compareanaswap 原 语 。 当 然 ， 我 们 也 可 为 Compare- 
Andswap 原 语 关联 一 个 计数 器 来 解决 ABA 问题 。 

严格 意义 上 讲 ， 如 果 storeconditionally 原 语 所 操作 的 并 非 之 前 保留 的 地 址 ， 则 其 最 
终结 果 可 能 是 未 定义 的 。 但 某 些 处 理 器 在 设计 上 便 允 许 这 种 使 用 方式 ， 这 相当 于 提供 了 一 种 
在 某 些 场景 下 有 用 的 、 针 对 任意 两 个 内 存 地 址 的 原子 操作 。 


13.3.3 ”原子 算术 原 语 


算法 13.9 定义 了 几 种 原子 算术 原 语 。 我 们 也 可 使 用 Atomicaaa 或 Fetchandadd 原 语 来 
实现 AtomicIncrement 和 AtomicDecrement 操作 ， 且 其 返回 值 既 可 以 是 原始 值 ， 也 可 以 是 新 
值 。 另 外 ， 处 理 器 在 执行 这 些 原 语 时 通常 会 设置 条 件 码 (condition code)， 其 值 可 以 用 于 反 
映 目标 地 址 的 值 是 否 为 零 (或 者 原始 值 为 零 )， 也 可 反映 其 他 一 些 信息 。 在 垃圾 回收 领域 ， 
FetchaAndada 原 语 可 以 用 于 实现 并 发 环境 下 的 顺序 分 配 ( 即 阶 跃 指针 分 配 )， 但 更 好 的 做 法 通 
常 是 为 每 个 线程 建立 本 地 分 配 缓冲 区 ， 如 7.7 节 所 述 。Fetchanaaaa 可 以 简单 地 用 于 从 队列 
中 添加 或 者 移 除 元 素 的 操作 ， 但 是 对 于 环 状 缓冲 区 ， 还 需要 小 心地 处 理 回 绕 ( wrap-around ) 
问题 (参见 13.8 节 )。 

算法 13.9 ”原子 算术 原 语 
AtomicIncrement(x): 


atomic 
*x + *x + 1 


atomic 


1 

2 

3 

4 

s AtomicDecrement(x): 
6 

7 x, — “xe = l 
8 

9 


AtomicAdd(x, v): 


10 atomic 

n new + *x + v 
12 *x + new 

13 return new 


5 ~FetchAndAdd(x, v): 


16 atomic 

17 old 人 *x 

18 *X — old + v 
19 return old 


这 些 原 子 算 术 原 语 的 能 力 严 格 弱 于 compareandaswap， 同 时 也 弱 于 LoadLinked/Store 
Conditionally (参见 Herlihy and Shavit [2008]) 。 每 种 原 语 都 存在 一 个 可 以 用 一 致 数 
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(consensus number) 9 来 描述 的 特征 ， 如 果菜 个 原 语 的 一 臻 数 为 k， 意 味 着 它 可 以 解决 个 
线程 之 间 的 一 致 问 题 ， 但 无 法 解决 多 于 大 个 线程 之 间 的 一 致 问 题 。 所 谓 一 致 问 题 ， 是 指 多 
处 理 器 算法 是 否 能 达到 如 下 要 求 : 中 对 于 某 个 变量 ， 每 个 线程 均 建议 一 个 值 ; @ 所 有 线程 
针对 某 个 值 达成 一 致 ，@ 该 变量 的 最 终 值 为 某 个 线程 所 建议 的 值 ， 四 所 有 线程 均 能 够 在 有 
限 步骤 内 完成 操作 ， 即 算法 必须 满足 无 等 待 (wait-free) ÆR (参见 13.4 节 )。 对 于 所 有 的 
无 条 件 设 置 原 语 (例如 aAtomicExchange) 或 者 对 相同 值 产生 相同 运算 结果 的 更 新 原 语 (如 
AtomicIncrement 与 FetchAndada ), 其 = 致 数 Wy 为 Ja 而 CompareAndSwap 和 LoadLinked/ 
StoreConditionally 的 一 致 数 则 为 ， 即 它们 能 够 以 无 等 待 的 方式 解决 任意 多 个 线程 之 间 的 
一 致 问题 ， 正 如 算法 13.13 即将 展示 的 。 

无 条 件 算 术 原 语 的 一 个 潜在 优势 在 于 它们 通常 都 会 成 功 ， 而 如 果 使 用 compareandswap 
或 者 LoadLinked/storeconditionally 来 模拟 无 条 件 算术 原 语 ， 线 程 之 间 的 竞争 很 可 能 导致 
“ 饥 俄 ”现象 的 出 现 9 。 


13.3.4 检测 - 检测 并 设置 


“检测 -检测 并 交换 ” 即 为 算法 13.3 中 所 介绍 的 testandTestandset 。 由 于 算法 13.34 
不 断 迭 代 ， 所 以 其 正确 性 不 存在 问题 。 开 发 者 应 当 避 免 将 其 实现 为 算法 13.10 所 示 的 两 种 错 
误 形 式 : testThenTestandsetLock 不 会 进行 迭代 ， 如 果 x 在 if 和 Testandset 语句 之 间 被 修 
W, TestAndset 将 执行 失败 ， 因 而 这 一 操作 存在 错误 ; testThenTestThenSetLock 的 错误 则 
更 加 明显 ， 它 不 使 用 任何 原子 操作 原 语 ， 因 此 在 变量 x 的 两 次 读 取 之 间 以 及 变量 x 的 读 写 之 
间 任 何 针 对 x 的 更 新 操作 都 有 可 能 发 生 。 需 要 注意 的 是 ， 即 使 将 x 声明 为 volatile 也 无 济 
TH. “HORE -比较 并 交换 ”的 实现 也 可 能 出 现 类 似 的 错误 。 正 确 地 构造 出 一 个 并 发 算法 并 
非 易 事 ， 这 些 错误 便 是 开发 者 很 容易 遇 到 的 陷阱 。 


算法 13.10 ”错误 的 “检测 并 设置 ”实现 形式 


test ThenTestAndSet Lock(x): /* 错误 ! */ 
if x = 0 
TestAndSet (x) 


if «x = 0 
其 他 工作 
af xx = 0 


1 
2 
3 
4 
s testThenTest ThenSetLock(x): /* 错误 ! */ 
6 
7 
8 
9 ex < 1 


13.3.5 ”更 加 强大 的 原 语 


在 我 们 描述 过 的 硬件 原 语 中 ，LoadLinked/storeconditionally 的 通用 性 最 强 ， 也 是 针 
对 单字 的 最 强 的 原子 更 新 语义 。 除 此 之 外 ， 人 允许 对 多 个 独立 字 进 行 原子 更 新 的 硬件 原 语 则 
更 加 强大 。 在 单字 原 语 之 外 ， 某 些 处 理 需 还 支持 双 字 原 语 ， 例 如 双 字 比较 并 交换 ， 我 们 称 
之 为 CompareAndSwapWide/CompareAndSetWide ( 见 算法 13.11 Je 如 果 仅 从 概念 上 来 看 ， 该 原 


日 此 处 虽然 也 将 consensus 表述 为 “一 致 "， 但 其 更 倾向 于 “共识 ”。 读 者 需要 注意 区 分 其 与 coherence 和 
consistency 的 区 别 。 一 一 译 者 注 

日 ”如 果 竞 争 到 达 一 定 程度 ， 甚 至 可 能 出 现 硬件 层面 的 饥饿 ， 即 每 个 处 理 器 都 尝试 以 独占 方式 访问 相关 的 高 速 缓 
存 行 。 
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语 的 强大 之 处 没 得 到 充分 体现 。 但 是 ， 使 用 双 字 compareandswap 操作 却 可 以 轻松 应 对 单字 
compareandswap 无 法 解决 的 ABA 问题 ， 此 时 我 们 只 需要 将 第 二 个 字 用 作 记 录 第 一 个 字 被 更 
新 次 数 的 计数 器 。 对 于 32 位 的 字 ， 计 数 器 的 值 最 多 可 以 达到 2”， 因 而 基本 上 可 以 忽略 计数 
器 回 绕 可 能 带 来 的 安全 问题 。 支 持 对 相 邻 两 个 64 位 的 字 进 行 原子 更 新 的 硬件 原 语 则 更 加 强 
大 。 因 此 ， 尽 管 compareandswapwide 在 概念 上 与 常规 的 Compareandswap 并 无 较 大 差别 ， 但 
其 在 使 用 上 却 更 加 方便 、 更 加 高 效 。 
算法 13.11 compareAndSwapWide 
CompareAndSwapWide(x, old0, oldi, new0, newl): 
atomic 
curr0，currl ¢ x[0], x[1] 
if curr0 = old0 & currl = oldl 


1 

2 

3 

4 

5 x[0], x[1] + new0, newl 
6 return curr0, currl 

4 

8 

9 


CompareAndSetWide(x, old0, old1, new0, newl): 


atomic 
10 curr0, currl + x[0], x[1] 
n if currO = oldO & currl = oldl 
2 x[0], x[1] «+ new0, newl 
3 return true 
14 return false 


尽管 更 新 相 邻 两 个 字 的 原子 操作 原 语 十 分 有 用 ， 但 如 果 其 能 够 原子 化 地 更 新 内 存 中 任 
意 两 个 (不 相 邻 ) 字 则 会 显得 更 加 强大 。Motorola 880000 以 及 Sun 的 Rock 处 理 器 均 提供 
了 “ 双 比 较 并 交换 ”指令 (compare-and-swap-two， 也 称 double-compare-and-swap)， 如 算 
法 13.12 中 的 compareandswap2 原 语 所 示 。compareandswap2 的 硬件 实现 较为 复杂 ， 因 而 目 
前 尚 无 商业 级 别 的 处 理 器 支持 这 一 原 语 。compareandswap2 可 以 泛 化 为 通用 的 n 路 比较 并 
交换 (compare-and-swap-n， 也 称 n-way compare-and-swap)， 同 理 ， 也 可 对 LoadLinked/ 
StoreConditionally 原 语 进行 泛 化 ， 由 此 得 到 的 结果 便 是 事务 内 存 (transactional memory), 
13.9 节 将 对 其 进行 介绍 。 

算法 13.12 CompareAndSwap2 
CompareAndSwap2(x0, x1, old0, old1, new0, new1): 
atomic 
curr0, curri ¢ *x0, *x1 
if curr0 = old0 & currl = oldl 


1 

2 

3 

4 

5 *x0, *xl  new0, newl 
6 return curr0, currl 

T 

8 

9 


CompareAndSet2(x0, x1, old0, old1, new0, new1): 


atomic 
10 curr0, currl ¢ +*x0, *x1 
1 if curr0 = old0 & currl = oldl 
12 *x0, *x1 ¢ new0, newl 
13 return true 
14 return false 


13.3.6 ”原子 操作 原 语 的 开销 
开发 者 经 常会 错误 地 使 用 原子 操作 原 语 ， 其 原因 之 一 是 他 们 知道 原子 操作 的 开销 较 大 ， 
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因而 会 刻意 避免 使 用 原子 操作 ， 而 另 一 种 原因 则 是 他 们 可 能 错误 地 使 用 了 原子 操作 ， 例 如 算 
法 13.10 中 两 种 错误 的 testandTestandset 实现 。 我 们 曾经 提 到 ， 有 两 个 原因 导致 原子 操作 
的 开销 较 大 : 一 是 原子 化 的 “ 读 一 修改 - 写 ” 原 语 必须 以 独占 方式 访问 相关 的 高 速 缓存 行 ; 
二 是 在 指令 结束 之 前 ， 处 理 器 必须 完成 数据 读 取 、 计 算 新 值 、 写 入 新 值 这 一 系列 操作 。 现 
ADS at AT EES EE (overlap) 技术 ， 但 是 如 果 后 续 操 作 强 依赖 于 原子 操作 的 结 
果 ， 则 必然 会 减少 流水 线 中 的 指令 条 数 。 由 于 原子 操作 需要 确保 一 致 性 ， 因 而 其 通常 会 涉及 
总 线 甚至 内 存 的 访问 ， 这 通常 会 花费 较 多 的 指令 周期 。 

另 一 个 导致 原子 操作 执行 速度 较 慢 的 原因 是 ， 它 们 要 么 天 然 包括 内 存 屏 障 语义 ， 要 么 要 
求 开发 者 在 其 开始 和 结束 位 置 手动 添加 额外 的 内 存 屏 障 。 这 潜在 削减 了 指令 重合 与 流水 线 技 
术 所 带 来 的 性 能 优势 ， 从 而 导致 处 理 器 很 难 隐藏 这 些 原 语 访问 总 线 或 者 内 存 的 开销 。 


13.4 ”前 进 保障 


当 多 个 线程 之 间 竞 争 相 同 数据 结构 时 (例如 共享 堆 , 或 者 回收 器 数 据 结构 )， 确 保 整 个 
系统 能 够 正常 往 下 执行 尤为 重要 (特别 是 在 实时 环境 中 )， 我 们 将 这 一 要 求 称 为 前 进 保 障 
(progress guarantee)。 了 人 解 不 同 硬件 原 语 在 前 进 保障 方面 的 相对 强度 也 十 分 必要 ， 常 见 的 前 
进 保障 级 别 从 强 到 弱 分 别 是 : 无 等 待 、 无 障碍 、 无 锁 。 对 于 并 发 算法 而 言 ， 如 果 每 个 线程 始 
终 都 可 以 向 前 执行 (不论 其 他 线程 执行 何 种 操作 )， 则 称 其 为 无 等 待 ( wait-free) 算法 ; WR 
在 并 发 算法 中 ， 对 于 任意 一 个 线程 ， 只 要 其 拥有 足够 长 的 独占 式 执行 时 间 ， 便 能 够 在 有 限 
步骤 内 完成 操作 ， 则 称 该 算法 为 无 障碍 ( obstruction-free) BYE; 如 果 算 法 永远 可 以 保证 某 
些 线程 能 在 有 限 步 又 内 完成 操作 ， 则 称 该 算法 为 无 锁 (lock-free) 算法 。 在 真实 系统 中 ， 前 
进 保障 通常 是 条 件 性 的 ， 例 如 ， 某 一 算法 满足 无 等 待 要 求 的 条 件 可 能 是 存储 空间 尚未 耗 尽 。 
Herlihy 和 Shavit [2008] 对 这 些 概 念 及 其 实现 进行 了 详尽 的 论述 。 

无 等 待 算法 通常 会 引入 线程 互助 的 概念 ， 也 就 是 说 ， 如 果 线 程 22 即将 执行 的 操作 可 能 
会 打 断 线程 t1 正在 执行 的 、 在 一 定 程 度 上 可 以 确定 超前 于 线程 12 的 操作 ， 则 线程 2 将 协助 
tl 完成 其 工作 ， 然 后 再 开始 执行 自身 工作 。 假 设 线程 数量 存在 固定 上 界 ， 且 线程 之 间 相 互 协 
助 的 工作 单元 或 者 对 数据 结构 的 操作 也 存在 上 界 ， 则 任何 工作 单元 或 者 操作 的 完成 步骤 便 都 
存在 上 界 。 但 是 ， 这 一 上 界 通常 较 大 ， 且 与 较 弱 的 前 进 保障 相 比 ， 线 程 互助 需要 引 人 额 外 的 
数据 结构 与 工作 量 ， 因 而 其 操作 时 间 通 常 相当 长 。 对 于 较为 简单 的 一 致 性 场景 ， 为 其 设计 时 
间 开 销 较 小 的 无 等 待 算法 通常 比较 容易 ， 如 算法 13.13 所 示 。 从 中 我 们 可 以 看 出 ， 该 算法 满 
足 解 决 Y 个 线程 的 一 致 问题 的 所 有 标准 ， 但 是 其 空间 开销 正比 于 N。 


算法 13.13 ”基于 “比较 并 交换 ” 原 语 来 实现 一 致 性 (满足 无 等 待 要 求 ) 


shared proposals[N] /* 每 个 线程 对 应 数组 中 的 一 个 元 素 */ 
shared winner + 一 1 /* 优胜 者 线程 编号 */ 
me + myThreadId 


proposals[me] + v /* 0o SR id < N */ 
CompareAndSwap(&winner, —1, me) 


1 
2 
3 
4 
s decide(v): 
6 
7 
8 return proposals[winner] 


与 无 等 待 要 求 相 比 ， 无 障碍 更 容易 实现 ， 但 是 其 可 能 需要 调度 器 的 协助 。 如 果 线 程 发 现 
当前 存在 竞争 ， 则 它 可 以 使 用 随机 递增 的 时 间 退 让 策略 来 确保 其 他 线程 优先 完成 工作 。 也 就 
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是 说 ， 每 当 线程 探测 到 竞争 时 ， 其 首先 会 计算 一 个 比 上 次 退让 时 间 更 长 的 时 间 周 期 7， 然 后 
再 从 0 一 了 之 间 选 择 某 一 随机 值 作 为 本 次 退让 的 时 间 。 从 概率 上 讲 ， 对 于 较 少 出 现 竞争 的 场 
景 ， 每 个 线程 最 终 都 会 成 功 执行 。 

无 锁 要 求 的 实现 则 更 加 简单 ， 它 只 要 求 在 任何 情况 下 至 少 一 个 竞争 者 可 以 继续 往 下 执 
行 ， 即 使 其 他 线程 可 能 会 永久 性 地 等 待 下 去 。 


前 进 保障 与 并 发 回收 


并 行 回收 器 (parallel collector) 同时 使 用 多 个 回收 线程 来 处 理 回收 工作 ,但 其 回收 过 程 
中 仍 会 挂 起 所 有 赋值 器 线程 ; 并 发 回收 器 (concurrent collector) 会 在 赋值 器 线程 执行 的 同时 
执行 (至 少 一 部 分 ) 回收 工作 ， 其 通常 也 会 使 用 多 个 回收 线程 。 并 行 回收 和 并 发 回收 算法 的 
执行 通常 可 以 分 为 数 个 阶段 ， 例 如 标记 、 扫 描 、 复 制 、 转 发 或 清扫 ， 并 发 回收 器 还 可 能 会 让 
赋值 器 在 执行 过 程 中 承担 一 定 的 回收 工作 。 多 个 回收 线程 之 间 必 须 进 行 协作 ， 否 则 它们 之 间 
可 能 会 相互 干扰 ， 或 者 干扰 到 赋值 器 的 执行 。 在 如 此 复杂 的 场景 之 下 我 们 应 当 如 何 描述 回收 
器 的 正确 性 ? 最 基本 的 要 求 显 然 是 回收 费 不 能 发 生 任何 明显 错误 一 一 至 少 要 确保 不 会 回收 任 
何 可 达 对 象 ， 并 确保 赋值 器 的 正常 工作 。 在 此 基础 之 上 ， 回 收 器 还 应 当 确保 回收 工作 终究 能 
够 结束 ， 且 其 或 多 或 少 都 应 当 回收 一 些 不 可 达 内 存 以 便 复 用 。 对 于 不 同 的 回收 算法 ， 其 每 次 
调用 所 能 回收 内 存 的 期 望 值 有 所 不 同 : 保守 式 回收 器 (只 能 依赖 模糊 根 ) 通常 会 高 估 堆 中 对 
象 的 可 达 性 ， 进 而 导致 某 些 不 可 达 对 象 无 法 得 到 回收 ; 类 似 地 ， 对 于 分 代 回 收 器 或 者 其 他 使 
用 分 区 策略 的 回收 器 ， 其 会 故意 避免 回收 推 中 某 些 分 区 的 不 可 达 对 象 。 完 整 的 回收 算法 必须 
达到 更 高 的 要 求 : 只 要 垃圾 回收 的 调用 次 数 足 够 多 ， 任 意 垃圾 对 象 最 终 都 能 得 到 回收 。 

并 发 回收 器 中 还 有 其 他 一 些 问题 需要 关注 。 其 中 的 一 个 问题 是 ， 对 于 在 回收 过 程 中 (由 
赋值 器 ) 分 配 并 (在 回收 结束 之 前 ) 不 可 达 的 对 象 ， 或 者 在 回收 开始 之 前 分 配 但 在 回收 过 程 
中 不 可 达 的 对 象 ， 回 收 器 是 否 应 当 将 其 回收 。 对 于 特定 回收 器 而 言 ， 答 案 既 可 能 是 肯定 的 ， 
也 可 能 是 否定 的 。 

并 发 回收 与 并 行 回收 过 程 中 还 存在 更 多 微妙 的 问题 与 风险 。 顺 序 算法 (sequential 
algorithm) 的 结束 特征 通常 比较 明显 ， 例 如 在 对 可 达 对 象 图 进行 标记 的 过 程 中 ， 堆 中 对 象 会 
被 划分 成 3 个 集合 : 已 标记 且 已 扫描 、 已 标记 但 未 扫描 、 未 标记 ， 标 记 算法 需要 逐渐 增 大 第 
一 个 集合 ， 并 最 终 使 其 圳 括 堆 中 所 有 可 达 对 象 。 尽 管 算法 在 执行 过 程 中 有 时 难以 达到 严格 的 
正确 性 要 求 ， 但 判断 算法 何 时 执行 结束 却 相 对 容易 。 在 并 发 回收 中 ,由 于 在 回收 过 程 中 依然 
存在 新 对 象 的 分 配 以 及 对 象 图 的 变更 ， 所 以 算法 的 结束 特征 便 不 甚 明显。 如 果 赋 值 器 的 每 一 
步 操 作 都 会 产生 更 多 的 回收 工作 ， 那 么 回收 器 何 时 才能 赶 得 上 赋值 器 ? 为 此 ， 赋 值 器 可 能 需 
要 减缓 执行 其 至 完全 停止 一 段 时 间 。 即 使 可 以 确保 回收 右 的 处 理 速度 永远 高 于 赋值 器 ， 但 仍 
存在 一 些 其 他 的 难点 : 除非 回收 算法 使 用 无 等 待 技术 ， 和 否则 回收 器 和 赋值 器 之 间 的 相互 干扰 
可 能 会 导致 程序 永远 无 法 向 前 执行 。 例 如 ， 在 无 锁 算法 中 ， 某 一 线程 在 尝试 完成 某 个 阶段 的 
工作 时 可 能 会 持续 失败 。 同 时 ， 存 在 竞争 关系 的 两 个 线程 可 能 会 永久 性 地 导致 对 方 无 法 向 前 
执行 ， 这 一 现象 被 称 为 活 锁 (livelock)。 

不 同 回收 阶段 的 前 进 保障 可 能 会 有 所 不 同一 一 可 能 一 个 阶段 为 无 锁 级 别 ， 而 男 一 个 阶段 
为 无 等 待 级 别 。 但 在 具体 实现 过 程 中 ， 即 使 是 在 理论 上 完全 无 等 待 的 算法 也 可 能 会 引入 一 些 
(期 望 停顿 时 间 较 短 的 ) 万 物 静 止 式 停顿 。 要 达到 最 强 的 前 进 保障 级 别 ， 不 可 避免 地 会 增加 

代码 复杂 度 并 增加 出 错 几 率 ， 因 而 在 工程 上 花费 大 量 精 力 以 达到 无 等 待 要 求 的 做 法 可 能 并 不 
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值得 。 站 在 赋值 器 的 角度 来 讲 ， 只 要 回收 器 释放 内 存 的 速度 足够 快 ， 能 保证 内 存 分 配 操作 不 
会 (由 于 等 待 回收 器 释放 内 存 而 ) PASE, 就 可 以 说 回收 算法 达到 无 等 待 级 别 。 男 外 ， 回 收 右 
还 必须 确保 在 回收 周期 结束 之 前 堆 空间 不 会 耗 尽 。 这 些 要 求 都 远 比 在 每 个 阶段 中 达到 无 等 待 
要 求 要 重要 得 多 一 一 它 需 要 在 堆 大 小 、 最 大 存活 对 象 大 小 、 分 配 率 、 回 收 率 之 间 达 到 整体 平 
衡 。 回 收 器 的 正常 工作 需要 用 足够 的 资源 保证 ， 包 括 内 存 与 处 理 器 时 间 。 对 于 临界 实时 系统 
(critical real-time system) 而 言 ， 这 些 因素 都 必须 考虑 ， 我 们 将 在 第 19 章 提供 更 加 详细 的 描 
述 。 后 续 章 节 中 的 大 多 数 算 法 都 仅 提供 较 弱 的 前 进 保障 ， 例 如 无 锁 保 障 ， 也 可 能 只 在 特定 的 
阶段 才 达 到 这 一 保障 要 求 。 较 弱 的 前 进 保障 不 仅 易于 实现 ， 而 且 在 许多 非 严 格 场景 也 完全 
足够 。 


13.5 并 发 算法 的 符号 记 法 


对 于 前 面 所 讨论 的 几 个 问题 ， 特 别 是 在 原子 性 、 高 速 缓存 一 致 性 (cache coherence), A 
存 一 致 性 (memory consistency) 方面 ， 开 发 者 所 编写 的 代码 不 一 定 会 依照 其 表面 上 的 顺序 
来 执行 一 一 硬件 与 编译 器 可 能 会 对 某 些 操作 进行 重 排序 ， 其 至 优化 掉 其 中 的 某 些 操作 。 具 体 
的 执行 结果 在 很 大 程度 上 取决 于 编程 语言 、 编 译 器 、 运 行 时 系统 以 及 硬件 。 为 屏蔽 不 同 软 硬 
件 平台 之 间 的 差异 ， 我 们 使 用 伪 代 码 来 描述 算法 。 确 保 算法 中 某 些 操作 的 相对 顺序 对 于 算法 
的 正确 性 十 分 重要 ， 但 并 不 是 说 所 有 操作 都 必须 严格 依照 伪 代 码 所 示 的 顺序 执行 ， 且 所 有 处 
理 器 都 必须 依照 这 一 顺序 感知 到 算法 的 状态 变化 。 仅 要 求 特定 的 代码 序列 必须 有 序 执行 ， 可 
以 简化 伪 代 码 在 具体 环境 中 的 实现 。 我 们 约定 : 

原子 化 的 含义 : 位 于 atomic 关键 字 范 围 之 内 的 操作 在 发 生 的 瞬间 必须 能 够 被 所 有 处 理 
器 感知 到 一 一 其 执行 过 程 可 以 看 作 是 没有 其 他 共享 内 存 读 写 操作 发 生 。 当 atomic 操作 发 生 
冲突 时 〈 例 如 在 某 个 处 理 器 读 取 一 个 共享 变量 时 ， 其 他 处 理 器 同时 读 / 写 该 变量 )， 各 处 理 需 
必须 以 相同 的 顺序 感知 到 各 操作 的 执行 ， 且 各 线程 在 执行 这 些 操 作 时 也 必须 符合 程序 顺序 。 
另外 ，atomic 代码 段 还 必须 能 够 充当 其 他 共享 内 存 访 问 操作 的 屏障 ， 但 由 于 并 非 所 有 硬件 
都 会 在 原子 操作 原 语 中 加 入 屏障 语义 ， 所 以 开发 者 可 能 需要 手工 添加 内 存 屏障 代码 。 此 处 的 
屏障 代码 可 能 会 依照 请 求 -释放 ( acquire-release) 屏障 语义 进行 工作 ， 但 我 们 在 设计 上 假定 
其 为 完全 内 存 屏障 。 

加 载 链接 / 条 件 存储 的 有 序 效应 : 加 载 链接 和 条 件 存 储 指令 均 必须 能 够 充当 共享 内 存 访 
问 的 完全 屏障 。 

变量 标记 : 我 们 会 对 共享 变量 进行 显 式 声明 ， 其 他 变量 均 默 认为 线程 私有 变量 。 

数组 : 我 们 使 用 中 括号 来 表示 数组 元 素 的 数量 ， 例 如 proposals IN] 。 数 组 的 声明 会 显 式 使 
用 shared 或 者 private 关键 字 。 数 组 可 以 使 用 元 组 进行 初始 化 ， 例 如 shared pair[2] 二 [0,1], 
元 组 也 可 使 用 相同 的 元 素 扩展 到 特定 长 度 ， 例 如 shared level [N] 一 [-1,…]。 

指向 共享 变量 的 引用 : 我 们 假定 对 共享 变量 的 每 次 引用 都 会 引发 一 次 真正 的 内 存 读 写 操 
作 , 但 其 发 生 顺 序 并 不 一 定 要 与 代码 顺序 保持 一 致 。 

因果 性 : 如 果 操 作 x 和 操作 y 之 间 存 在 因果 联系 ， 则 在 真实 系统 中 x 应 当先 于 执行 ， 
即 执行 结果 应 当 满足 伪 代 码 所 展示 的 顺序 语义 。 此 处 的 一 个 例子 是 依赖 性 的 内 存 引 用 : 如 果 
代码 需要 访问 由 共享 指针 变量 p 所 引用 对 象 中 的 某 个 域 :， 即 (*p) .E， 则 读 取 p 的 操作 和 读 
Bee 的 操作 之 间 存 在 因果 联系 。 类 似 的 案例 还 包括 通过 共享 索引 变量 i 访问 共享 数组 中 的 元 
#, Hlatil, 
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条 件 控制 语句 同样 也 隐 含 着 因果 性 要 求 : if, while 或 者 其 他 条 件 控 制 表 达 式 的 运算 结 
果 会 因果 性 地 决定 后 续 代 码 的 执行 路 径 ， 因 此 开发 者 必须 小 心地 禁止 条 件 代 码 的 腾 测 求 值 
( speculative evaluation)， 进 而 避免 处 理 器 对 共享 变量 的 访问 进行 重 排序 。 但 是 ，if 语句 之 
后 的 非 条 件 性 代码 与 it 表达 式 之 间 并 不 存在 因果 联系 ， 类 似 的 情况 还 包括 将 条 件 代码 移出 
循环 。 

显 式 屏 障 点 : 即使 算法 的 具体 实现 完全 遵守 上 述 各 项 约定 ， 编 译 器 或 者 硬件 仍 可 能 对 
许多 操作 进行 任意 排序 ， 但 在 某 些 情况 下 ， 算 法 仍 需 要 按 特定 的 顺序 执行 以 确保 结果 的 正 
确 性 。 因 此 我 们 在 约定 中 补充 一 条 : 所 有 结尾 带 “$” 符 号 的 代码 都 必须 依照 算法 所 示 的 顺 
序 执行 。 另 外 , 带 “$” 符 号 的 行 同时 也 可 以 视 作 共享 内 存 访问 的 完全 屏障 。 本 章 目 前 为 止 
所 出 现 的 代码 都 不 需要 引入 “$” 标 记 。 需 要 注意 的 是 ， 对 于 带 “$ ”符号 的 行 的 具体 实现 ， 
某 些 处 理 器 架构 可 能 需要 在 该 行 之 前 添加 某 种 屏障 ， 也 可 能 是 在 其 后 添加 ， 也 可 能 是 前 后 都 
需要 添加 。 这 些 行 通常 都 是 比较 重要 的 、 不 允许 重 排序 的 特殊 读 / 写 操作 。 尽 管 “$” 标 记 
并 不 能 对 伪 代 码 在 具体 平台 上 的 实现 给 予 完整 指引 ， 但 它 却 指明 了 哪些 地 方 需要 特别 注意 。 


13.6 HF 


互 斥 是 并 发 计算 中 最 基本 的 问题 之 一 ， 开 发 者 可 以 借助 互 斥 机 制 来 确保 某 一 代码 段 在 任 
意 时 刻 只 会 被 一 个 线程 执行 ， 此 处 的 代码 段 被 称 为 临界 区 (critical section)。 尽 管 在 某 些 情 
况 下 我 们 可 以 借助 一 条 原子 操作 原 语 来 实现 必要 的 状态 转换 ， 也 可 能 使 用 具有 较 强 前 进 保障 
级 别 的 技术 ,但 这 可 能 会 引入 很 大 的 开销 ， 并 且 几 乎 必然 会 增 大 代码 复杂 度 。 因 此 在 许多 场 
景 下 ， 互 斥 技术 依然 十 分 有 用 。 借 助 于 原子 化 的 “ 读 -修改 - 写 ” 原 语 很 容易 实现 加 锁 / 解 
锁 函 数 ， 如 算法 13.1 ~ 13.3 所 示 。 但 即使 不 借助 于 原子 操作 原 语 ， 我 们 仍 可 以 借助 于 (以 
适当 方式 排序 的 ) 共享 内 存 读 写 操作 实现 互 斥 。 算 法 13.14 展示 了 一 种 经 典 的 互 斥 技术 ， 即 
Peterson 算法 ， 该 算法 可 以 实现 两 个 线程 之 间 的 互 斥 ， 其 不 仅 能 够 正确 实现 互 斥 ， 而 且 满 足 
前 进 保障 要 求 ， 即 如 果 两 个 线程 同时 请 求 进入 临界 区 ， 必 然 有 一 个 线程 可 以 成 功 。 该 算法 
中 ,线程 的 等 待 存在 上 界 ， 即 线程 在 成 功 进 入 临界 区 之 前 所 需 等 待 的 轮 数 存在 上 界 S。 对 于 
算法 13.14 而 言 ,需要 等 待 的 轮 数 上 界 为 1， 即 等 待 当前 占据 临界 区 的 线程 离开 临界 区 。 


算法 13.14 基于 Peterson 算法 实现 互 斥 


shared interested|2] + [false, false] 
me + myThreadId 


1 
2 
3 
4 petersonLock(): 

5 other + 1 — me /* 线程 id 必须 为 0 或 1 */ 
6 interested[me] + true 

7 victim + me $ 
8 while victim = me & interested[other] $ 
9 


/* BER */ 


u petersonUnlock(): 
2 interested[me] + false 


Peterson 算法 很 容易 改造 成 适用 于 N REKREA, WAA 13.15 所 示 ， 我 们 可 以 从 
中 看 出 其 与 双 线 程 实现 版 本 的 相似 之 处 。while 循环 的 设计 十 分 巧妙 。 该 算法 将 竞争 临界 区 


O 等 待 时 间 存在 上 界 的 前 提 是 : 进入 临界 区 的 线程 能 够 在 有 限时 间 内 离开 临界 区 。 
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的 线程 分 为 W 个 等 级 ， 其 基本 思想 在 于 ， 如 果 某 一 线程 发 现 不 存在 同 级 别 或 者 更 高 级 别 的 
线程 ， 则 其 可 以 尝试 向 前 晋升 一 个 级 别 。 但 是 ， 对 于 处 于 某 一 级 别 的 线程 ， 如 果 另 一 个 线程 
也 到 达 同 一 级 别 ， 则 后 者 会 更 改 victim 变量 并 更 早 得 到 晋升 。 也 就 是 说 ， 只 有 最 晚 到 达 特 
定 级 别 的 线程 才 有 资格 等 待 更 高 级 别 的 线程 得 到 晋升 (或 进入 临界 区 )， 一 且 该 线程 得 到 晋 
升 ， 则 同 级 别 或 更 低级 别 的 其 他 线程 将 会 立刻 感知 到 。 该 算法 中 ， 即 使 while 循环 条 件 变量 
使 用 非 原子 化 的 方式 计算 也 能 保证 算法 的 正确 性 。Peterson 算法 展示 了 基于 非 原 子 操作 来 实 
现 互 斥 的 可 行 性 ， 但 原子 操作 原 语 却 更 加 方便 、 更 加 实用 。 


算法 13.15 ”适用 于 N RAR Peterson 算法 


shared level(N] + [-1,...] 
shared victim[N] 
me + myThreadId 


petersonLockN(): 
for lev 全 0 to N-1 
level[me] + lev /* o SR id < N */ 
victim[lev] + me 
while victimllev] = me & (Ji # me)(level[i] > lev) $ 
10 /* Be */ 


ce Nu ea ne Ow HK 


2 petersonUnlockN(): 
13 level[me] + 一 1 


在 13.3 节 对 一 致 问题 ( consensus problem) 的 描述 中 ， 我 们 介绍 了 一 致 问题 的 无 等 待 解 
决 方案 ( 即 算法 13.13 ) 。 如 果 没 有 较 强 的 前 进 保障 要 求 ， 则 通过 互 斥 机 制 也 可 简单 地 解决 一 
致 性 问题 ， 如 算法 13.16 所 示 。Peterson 算法 可 以 实现 互 斥 ， 因 而 它 也 可 以 用 于 解决 此 类 一 
致 性 问题 。 但 是 ， 如 果 可 以 使 用 compareandswap 原 语 ， 则 其 通常 是 更 加 合适 的 解决 方案 (如 
算法 13.13 所 示 )。 


算法 13.16 ”基于 互 斥 来 实现 一 致 性 


shared winner + 一 | 
shared value /* 该 变量 无 需 初始 化 */ 
me 全 myThreadId 


lock() 
if winner = —1 
winner + me 
value ¢ v 
10 unlock() 
u return value 


s decideWithLock(v): /* 简单 但 无 法 提供 较 强 的 前 进 保 障 */ 


13.7 ”工作 共享 与 结束 检测 


并 行 回 收 与 并 发 回收 算法 通常 都 需要 通过 某 种 方式 来 检测 并 行 算法 的 结束 ( termination)。 
需要 注意 的 是 ， 这 一 概念 与 论证 并 行 算法 最 终 是 否 可 以 结束 有 着 本 质 的 区 别 ， 此 处 我 们 所 关 
注 的 是 如 何 检 测 并 行 算法 的 一 个 特定 实例 是 否 真正 执行 完毕 。 例 如 对 于 各 回收 线程 “获取 工 
作 、 处 理工 作 单元 、 产 生 更 多 工作 ”这 种 普遍 的 并 行 回收 模式 ， 如 果 每 个 线程 只 关注 自身 的 
工作 ， 则 结束 检测 便 十 分 简单 一 一 线程 在 工作 结束 之 后 设置 本 地 done 旗 标 ， 如 果 所 有 线程 的 
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旗 标 都 已 设置 ， 则 算法 结束 。 但 是 ， 并 行 算法 通常 都 会 以 某 种 方式 共享 工作 单元 ， 其 目的 是 
对 线程 之 间 的 工作 负载 进行 平衡 ， 从 而 最 大 化 地 利用 多 处 理 器 、 提 升 处 理 速度 。 这 种 平衡 可 
以 通过 两 种 方式 实现 : 一 是 工作 负载 相对 较 重 的 线程 可 以 将 部 分 工作 推送 ( push) 给 负载 较 低 
的 线程 ， 二 是 工作 负载 较 轻 的 线程 从 负载 较 重 的 线程 中 拉 取 (pull) 部 分 工作 。 工 作 拉 取 策略 
也 称 为 工作 窃取 (work stealing). 

线程 之 间 的 工作 迁移 必须 原子 化 地 进行 ， 或 者 至 少 应 当 确 保 任 何 工 作 单 元 都 不 会 丢失 5 ， 
但 此 处 我 们 主要 关注 的 是 如 何 实现 工作 共享 算法 的 结束 检测 。 我 们 可 以 使 用 一 个 共享 的 计数 
器 来 表示 所 有 剩余 工作 单元 的 数量 ， 同 时 每 个 线程 原子 化 地 对 该 计数 器 进行 更 新 ， 进 而 实现 
一 种 简单 的 结束 检测 机 制 。 但 如 果 多 个 线程 对 共享 计数 器 的 更 新 过 于 频繁 ， 则 计数 器 本 身 很 
可 能 成 为 性 能 瓶颈 3。 因 此 许多 结束 检测 算法 都 会 避免 使 用 原子 更 新 原 语 ， 同 时 避免 将 读 写 
操作 集中 在 单个 变量 上 。 最 容易 想到 的 一 种 解决 方案 是 使 用 独立 的 线程 来 检测 其 他 线程 的 工 
作 是 否 完成 。 

算法 13.17 展示 了 Leung 和 Ting[1997] 所 提出 的 共享 内 存 工作 共享 结束 算法 的 简化 版 本 ®， 
该 算法 针对 工作 推送 模式 而 设计 。 该 算法 的 基本 思想 是 ， 每 个 工作 线程 使 用 一 个 busy HER 
来 表示 其 是 否 在 工作 中 ， 检 测 线程 需要 对 这 些 旗 标 进行 扫描 。 需 要 注意 的 是 ， 如 果 空 闪 工 作 
线程 收 到 了 来 自 其 他 线程 的 工作 推送 ， 则 其 将 重新 变 为 工作 状态 。 但 在 进行 结束 检测 时 ， 发 
起 工作 推送 的 线程 可 能 已 经 完成 了 自身 的 工作 并 转 人 空闲 状态 。 由 于 检测 线程 无 法 原子 性 
地 完成 所 有 busy 旗 标 的 扫描 ， 所 以 其 可 能 会 先 发 现 工作 接收 线程 处 于 空闲 状态 (由 于 工作 
推送 尚未 开始 )， 然 后 又 发 现 工 作 推送 线程 也 处 于 空闲 状态 (由 于 工作 推送 已 经 完成 )， 此 时 
检测 线程 可 能 产生 错误 的 结束 判定 。 为 解决 这 一 问题 ， 算 法 使 用 jobsMovea 变量 来 表示 当 
前 是 否 有 工作 迁移 发 生 ， 当 该 变量 被 设置 时 检测 线程 会 重新 进行 检测 。 需 要 特别 注意 的 是 ， 
sendJobs 方法 会 等 待 busy [j] 被 设置 为 真 时 才 进 行 下 一 步 操 作 (第 24 行 )， 这 同样 是 为 了 避 
免检 测 线程 产生 误 判 。 只 有 当 所 有 工作 都 已 经 处 理 完毕 ， 所 有 线程 的 busy 旗 标 才 可 能 全 部 
都 为 false, 


算法 13.17 ahy 共享 内 存 终结 算法 的 简化 版 本 [Leung and Ting, 1997] 


1 shared jobs[N] + 各 线程 的 初始 工作 
2 shared busy[N] + [true,...] 

3 shared jobsMoved + false 

4 shared allDone + false 

s me + myThreadIid 
6 

7 

8 

9 


worker(): 
loop 
while not isEmpty(jobs|me]) 
10 if the job set of some thread j appears relatively smaller than mine 


O HER PIPE oo Gdempotent) 的 ， 因 而 即使 多 次 处 理 该 工作 单元 ， 算 法 的 正确 性 依然 可 以 得 到 保 
证 (尽管 这 可 能 浪费 部 分 计算 资源 )。 

© Flood 等 [2001] 在 其 并 行 回收 器 中 使 用 的 方案 是 : 利用 一 个 字 中 的 每 一 位 来 表示 每 个 线程 的 工作 是 否 完成 ， 
当 该 字 为 零 时 意味 着 算法 结束 。 该 方案 与 此 处 所 描述 的 方案 在 本 质 上 并 无 差别 。 

© 为 简化 表述 ， 我 们 省 略 了 Leung 和 Ting[1997] 中 的 8 旗 标 ， 该 旗 标 用 于 表示 线程 是 处 于 休眠 状态 还 是 唤醒 状 
态 。 我 们 同时 为 Al y 族 标 赋予 了 更 容易 记忆 的 名 称 busy 和 jobsMoved。Leung 和 Ting 同时 还 展示 了 该 
算法 的 一 个 变种 ， 改 进 后 的 算法 在 每 经 历 JN 次 迭代 之 后 才 需 要 检测 j obsMoved 旗 标 。 与 回收 算法 中 执行 
回收 任务 所 需 的 时 间 相 比 ， 这 一 改进 的 实际 意义 值得 怀疑 。 
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u some + chooseAndDequeueJobs() 


n sendJobs(some, j) $ 
13 else 

u“ job + dequeue(jobs[me]) 

15 perform job 

16 busy|me] + false $ 
17 while isEmpty(jobs|me]) s& not allDone $ 
18 /* 等 待 算法 结束 或 者 其 他 线程 推送 工作 到 本 线程 */ 

19 if allDone return $ 
» busy[me] + true $ 
21 

2 sendJobs(some, j): /* 将 工作 推送 到 负载 更 轻 的 线程 */ 

z enqueue(jobs[j], some) 

u while (not busy[j]) & (not isEmpty(jobs[j])) $ 
5 /* 等 待 线程 j 被 唤醒 */ 

2% /* 部 分 工作 发 生 转 移 */ 

y jobsMoved + true $ 
28 

» detect(): 

30 anyActive ¢ true 


s 


while anyActive 
anyActive + (di)(busy[i]) 
anyActive ¢ anyActive || jobsMoved 
jobsMoved +- false 

allDone + true 


& £8 8B 


RAR 


算法 13.18 JER T AA TERKEREN ( 拉 取 ) 模式 下 的 相似 算法 ，Endo 
等 [1997] 在 其 并 行 回收 器 中 使 用 的 结束 检测 算法 本 质 上 即 为 该 算法 。 尽 管 Herlihy 和 Moss 
[1992] 的 无 锁 回 收 器 并 未 使 用 工作 共享 技术 ， 但 其 结束 算法 的 核心 与 算法 13.18 中 busy 和 
jobsMoved 旗 标 的 相关 逻辑 是 一 致 的 。 


算法 13.18 ”工作 窃取 模式 下 的 aBy 式 结束 检测 算法 


me + myThreadId 


1 

2 

3 worker(): 

4 loop 

5 while not isEmpty(jobs[me]) 

6 job + dequeue(jobs|me]) 

7 perform job $ 
8 if 某 一 线程 j 的 工作 负载 相对 较 重 

9 some + stealJobs(j) 

10 enqueue(jobs{me], some) 

n continue 

2 busy[me] + false $ 
13 while no thread has jobs to steal & not allDone $ 
“ /* 等 待 算法 结束 */ 

15 if allDone return $ 
16 busy[me] + true $ 


8 stealJobs(j): 


19 some + atomicallyRemoveSomeJobs(jobs[j]) 

2 if not isEmpty(some) 

a jobsMoved + true /* 部 分 工作 发 生 转 移 */ 
2 return some 


我 们 还 可 以 对 检测 算法 进行 改进 ， 即 只 有 当 某 一 线程 处 于 空闲 状态 时 才 进 行 结束 检测 , 
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在 此 之 前 检测 线程 仅 需 要 关注 旗 标 anytdle, WEA 13.19 所 示 。 类 似 地 ， 在 工作 窃取 模式 
下 ,我 们 也 可 使 用 相同 的 策略 来 改进 算法 ， 即 检测 线程 (在 检测 allpone 之 前 ) FORTE Fit 
ËR anyLarge 的 检测 ， 如 算法 13.20 所 示 。 


算法 13.19 直到 有 线程 处 于 空闲 状态 时 才 进 行 结 束 检测 


shared anyIdle + false 
me + myThreadId 


1 

2 

3 

4 worker(): 

5 eee 

6 busy[me] + false $ 
7 anyIdle + true $ 
8 

9 

w detect(): 

11 anyActive ¢ true 

2 while anyActive 

13 anyActive ¢ false 

14 while not anyIdle $ 
15 /* 等 待 有 线程 结束 工作 */ 

16 anyIdle + false $ 
” anyActive + (4i)(busy|i]) $ 
18 anyActive + anyActive || jobsMoved $ 
1» jobsMoved + false $ 
z allDone + true $ 


算法 13.20 ”延迟 空闲 工作 线程 的 结束 检测 


shared anyLarge ¢ false 
me + myThreadId 


1 

2 

3 

4 worker(): 

5 loop 

6 while not isEmpty(jobs[|me]) 

7 job + dequeue(jobs[me]) 

8 perform(job) $ 
9 if 本 线程 的 工作 负载 较 重 

10 anyLarge + true $ 
n if anyLarge 

2 anyLarge + false /* 在 查看 其 他 线程 的 负载 之 前 先 将 anyLarge $ 
设置 为 false */ 


3 if another thread j has a relatively large jobs set $ 
4 anyLarge + true /* 可 能 存在 更 多 可 穿 取 工作 */ $ 
15 some + stealJobs(j) $ 
16 enqueue(jobs[me], some) 

17 continue 

18 busy[me] + false $ 
19 while (not anyLarge) & (not allDone) $ 
20 /* 等 待 算法 结束 */ 

a if allDone return $ 
2 busy|me] + true $ 


目前 为 止 我 们 所 介绍 的 结束 检测 算法 都 需要 一 个 额外 的 结束 检测 线程 ， 我 们 也 可 使 用 空 
闲 线程 来 进行 结束 检测 ， 如 算法 13.21 所 示 。 但 不 幸 的 是 ， 该 算法 并 不 能 正常 工作 : 假设 线 
程 A 在 完成 自身 工作 之 后 发 现 没 有 工作 可 以 窃取 到 ， 其 将 进行 结束 检测 。 在 其 检测 扫描 过 
程 中 ， 它 可 能 会 发 现 线程 B 出 现 了 额外 的 工作 ， 因 而 其 将 中 止 结 束 检 测 过 程 并 准备 设置 自 
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身 的 busy 旗 标 。 但 在 此 时 ， 线 程 B 却 完成 了 自身 的 所 有 工作 并 转 和 人 结束 检测 状态 ， 它 将 发 
现 所 有 线程 都 已 完成 工作 ， 进 而 判定 算法 结束 。 这 一 问题 最 简单 的 解决 方案 是 在 进行 结束 检 
测 时 使 用 互 斥 机 制 ， 如 算法 13.22 所 示 。 

算法 13.21 对 称 结束 检测 


1 work(): 

2 wee 

3 while 本 线程 工作 结束 && not allDone $ 

‘ /* 此 算法 存在 问题 ! */ 

5 detectSymmetric() 

6 .. 

7 

s detectSymmetric(): 

9 while not allDone $ 

10 while (not anyIdle) & (not anyLarge) $ 

u /* 一 直 等 待 到 结束 检测 可 能 成 功 为 止 */ 

2 if anyLarge return $ 

13 anyIdle + false 

u anyActive + (3i)(busy[i]) $ 

15 anyActive + anyActive || jobsMoved $ 

16 jobsMoved + false $ 

17 allDone + not anyActive $ 
算法 13.22 ”修正 后 的 对 称 结束 检测 

1 shared detector + 一 1 

2 me {+ myThreadId 

3 

4 work(): 

5 see 

6 while Ihavenowork & not allDone $ 

7 if detector > 0 

s continue /* 避免 多 个 线程 同时 进行 结束 检测 */ 

9 if CompareAndSet(&detector, —1, me) 

10 detectSymmetric() $ 

n detector + 一 1 $ 


为 了 更 加 全 面 地 介绍 各 种 结束 检测 策略 ， 算 法 13.23 展示 了 使 用 原子 更 新 计数 器 来 实现 
结束 检测 的 方法 。 我 们 将 在 13.8 节 介 绍 一 种 能 够 支持 工作 共享 的 无 锁 数据 结构 一 一 并 发 双 
端 队列 (double-ended queue). 

算法 13.23 ”基于 计数 器 的 结束 检测 


shared numBusy ¢ N 


1 

2 worker(): 

3 loop 

4 while work remaining 

5 perform(work) 

6 if AtomicAdd(&numBusy, —1) = 0 

7 return 

s while 无 工作 可 以 宅 取 && (numBusy > 0) $ 
9 /* 等 待 新 工作 的 到 来 ， 或 者 算法 结束 */ 


10 if numBusy = 0 
u return 
2 AtomicAdd(&numBusy, 1) 
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汇聚 屏障 


并 发 回收 或 者 并 行 回 收 中 另 一 种 常见 的 同步 机 制 是 要 求 所 有 回收 线程 到 达 算 法 的 某 一 
点 (基本 上 就 是 某 一 回收 阶段 的 结束 点 )， 然 后 再 继续 往 下 执行 。 一 般 情况 下 ， 上 述 任意 一 
种 结束 检测 算法 都 可 以 胜任 这 一 场景 的 要 求 。 男 一 种 常见 的 场景 是 : 算法 在 某 一 阶段 的 工作 
并 不 存在 任何 形式 的 工作 共享 或 者 负载 均衡 ,但 其 仍 要 求 所 有 线程 都 到 达 指 定点 ， 即 汇聚 屏 
障 (rendezvous barrier)。 此 时 便 可 使 用 计数 器 结束 检测 算法 ( 即 算法 13.23 ) 的 简化 版 本 ， 
如 算法 13.24 所 示 。 在 程序 执行 过 程 中 ， 回 收 器 通常 会 被 调用 多 次 ， 因 而 要 么 算法 需要 在 开 
始 时 重 置 计数 器 的 值 ， 要 么 就 要 求 在 汇聚 计数 器 被 重 置 时 ， 任 何 线程 都 不 会 依赖 该 值 。 算 法 
13.25 使 用 了 后 一 种 技术 来 重 置 计 数 顺 。 

算法 13.24 ”使 用 计数 器 实现 线程 汇聚 

shared numBusy + N 
barrier(): 

AtomicAdd(&numBusy, —1) 


while numBusy > 0 
/* 等 待 其 他 线程 到 达 汇 聚 点 */ 
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算法 13.25 ”具有 计数 重 置 能 力 的 汇聚 屏障 


shared numBusy + N 
shared numPast ¢ 0 


1 
2 
3 
4 barrier(): 

5 AtomicAdd(&numBusy, —1) 

6 while numBusy > 0 

7 /* 等 待 其 他 线程 到 到 达 汇 聚 点 */ 

8 if AtomicAdd(&numPast, 1) = N /* 只 有 一 个 优胜 线程 可 以 重 置 计数 器 */ 
9 numPast + 0 $ 
10 numBusy ¢ N $ 
u else 


2 while numBusy = 0 /* 其 他 线程 等 待 计数 器 得 到 重 置 (但 不 会 等 待 很 久 ) */ 
3 /* 等 待 计数 器 重 置 完成 */ 


13.8 并 发 数据 结构 


我 们 有 必要 对 并 行 回 收 器 和 并 发 回收 器 中 经 常用 到 的 一 些 数 据 结构 进行 介绍 ， 并 剖析 对 
应 的 具体 实现 技术 。 针 对 顺序 程序 设计 的 数据 结构 通常 无 法 胜任 并 行 系统 或 并 发 系统 的 要 
求 ， 它 们 很 容易 遭 到 破坏 。 如 果 某 一 数据 结构 很 少 得 到 访问 ， 则 可 以 简单 地 使 用 互 斥 机 制 ， 
即 为 该 数据 结构 的 每 个 实例 创建 一 个 锁 ， 任 何 线程 在 对 其 进行 操作 之 前 都 必须 先 获 取 锁 ， 
并 在 操作 完成 后 释放 锁 。 如 果 存 在 内 内 操 作 或 者 递归 操作 ， 则 可 以 使 用 计数 锁 ( counting 
lock)， 如 算法 13.26 所 示 。 


算法 13.26 ”计数 锁 


/* 锁 本 身 占 据 一 个 字 的 空间 ， 其 内 部 包含 两 个 信息 : 线程 ID 以 及 计数 器 */ 


1 

2 shared lock ¢ (thread: —1, count: 0)int 
3 me + myThreadId 
4 
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s countingLock(): 


6 old ¢ lock 

7 if old.thread = me & old.count > 0 

8 /* 仅 增加 计数 (假设 不 会 出 现 溢出 ) */ 

9 lock + (old.thread, old.count + 1) 

10 return 

u loop 

2 if old.count = 0 

B if CompareAndSet(&lock, old, (thread: me, count: 1)) 
“4 return 

15 old + lock 


7 countingUnlock(): 

18 /* 线程 释放 锁 ， 即 使 计数 变 为 零 ， 算 法 依然 正确 */ 
19 old + lock 

20 lock + (old.thread, old.count — 1) 


对 于 某 些 需要 频繁 访问 的 数据 结构 ， 简 单 的 互 斥 机 制 可 能 会 成 为 瓶颈 ， 因 此 研究 者 们 提 
出 了 多 种 并 发 数据 结构 ， 这 些 数 据 结构 允许 并 发 操作 之 间 存 在 更 大 的 重 释 (overlap)。 即 使 
并 发 操作 发 生 重 倒 ， 仍 可 以 保证 操作 的 安全 性 与 结果 的 正确 性 。 对 于 某 一 数据 结构 而 言 ， 如 
果 任 意 两 个 发 生 重 秋 的 操作 对 数据 结构 造成 的 状态 变化 与 响应 结果 与 它们 不 发 生 重 准时 的 执 
行 结 果 相 同 ， 则 称 该 数据 结构 是 线性 化 (linearisable) 的 [Herlihy and Wing, 1990], 4b, 
如 果 两 个 操作 在 时 间 上 不 重 肆 ， 则 它们 的 执行 顺序 看 起 来 必须 与 其 调用 顺序 保持 一 致 。 对 
于 每 一 个 操作 ， 我 们 都 可 以 认为 其 在 某 一 时 刻 发 生 ， 并 称 该 时 刻 为 线性 化 点 〈1linearisation 
point)。 一 个 操作 在 时 间 上 可 能 存在 多 个 线性 化 点 ， 但 是 对 于 多 个 相互 影响 的 操作 ， 其 线性 
化 点 之 间 的 相对 顺序 应 当 与 各 操作 的 逻辑 顺序 保持 一 致 。 如 果 各 操作 之 间 不 会 相互 影响 ， 则 
它们 必然 能 够 满足 线性 化 的 要 求 。 许 多 内 存 管理 操作 (例如 内 存 分 配 与 工作 列表 变更 ) 必须 
遵从 线性 顺序 。 

有 多 种 通用 实现 策略 可 供 开 发 者 在 构建 并 发 数据 结构 时 选择 ， 这 些 策 略 在 并 发 程度 方面 
从 最 低 到 最 高 (通常 也 是 从 最 简单 到 最 复杂 ) 分 别 如 下 。 : 

粗 粒 度 锁 〈coarse-grained locking): 使 用 一 个 “大 ” 锁 来 控制 整个 数据 结构 的 访问 (如 
上 面 提 到 的 互 斥 方案 )。 

细 粒 度 锁 ( fine-grained locking): 该 方案 为 较 大 数据 结构 中 的 每 个 元 素 维护 独立 的 锁 ， 
例如 为 链表 或 树 中 的 每 个 节点 维护 一 个 锁 。 如 果 各 线程 对 数据 结构 的 访问 与 更 新 足够 分 散 ， 
则 该 策略 可 以 显著 提升 并 发 程度 。 该 策略 通常 需要 考虑 一 个 问题 ， 即 如 果 某 一 操作 会 对 多 个 
元 素 加 锁 ， 则 其 必须 保证 没有 其 他 相同 操作 (或 者 任何 其 他 操作 ) 会 以 相反 的 顺序 对 相同 元 
素 进 行 加 锁 ， 和 否则 将 导致 死 锁 的 产生 。 一 种 通用 的 解决 方案 是 要 求 所 有 操作 在 访问 〈 单 链表 
或 者 树 中 的 ) 元 素 时 遵从 相同 的 方向 ， 即 锁 联 结 Clock coupling): 某 一 操作 先 对 节点 A 加 锁 ， 
然后 再 对 A 所 指向 的 节点 B 加 锁 ， 接 着 再 释放 节点 A 的 锁 并 对 节点 B 所 指向 的 节点 C 加 
锁 ， 以 此 类 推 。 使 用 这 一 逐步 推进 策略 来 遍历 数据 结构 可 以 确保 后 发 线程 无 法 超越 先 发 的 线 
程 ， 同 时 也 可 以 确保 在 链表 / 树 中 插入 /删除 元 素 操 作 的 安全 性 。 细 粒度 锁 的 一 个 潜在 缺陷 
是 ， 对 不 同 元 素 多 次 加 解锁 可 能 会 给 共享 总 线 或 者 存储 带 来 一 定 开 销 ， 进 而 掩盖 了 相对 于 粗 
粒度 锁 的 优势 。 

AWM (optimistic locking): 该 方案 对 细 粒 度 锁 进 行 了 改进 ， 即 线程 在 对 数据 结构 进行 
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遍历 时 先 不 加 锁 ， 直 到 其 找到 合适 元 素 时 才 尝 试 对 其 进行 加 锁 。 但 在 从 发 现 合适 元 素 到 加 锁 
成 功 的 过 程 中 ， 该 元 素 可 能 已 被 其 他 并 发 线程 修改 ， 因 而 线程 在 加 锁 完成 后 需要 再 次 对 该 元 
素 进 行 校 验 。 如 果 校 验 失败 ， 则 其 需要 释放 锁 并 继续 查找 。 这 种 尽量 将 加 锁 操 作 延 迟 、 直 到 
迫不得已 时 才 加 锁 的 策略 可 以 减少 开销 并 提升 并 发 能 力 。 乐 观 锁 在 大 多 数 场景 下 都 具有 较 高 
的 性 能 ， 但 如 果 频 繁 发 生 更 新 冲突 ， 则 会 导致 性 能 下 降 。 

懒惰 更 新 (lazy update): 即使 采用 乐观 锁 ， 只 读 操作 仍 需 要 对 其 所 读 取 的 元 素 加 锁 ， 这 
不 仅 会 成 为 提升 并 发 程度 的 瓶颈 ， 还 可 能 在 只 读 操 作 中 引入 写 操作 《〈 即 加 解锁 )。 为 此 我 们 
可 以 设计 出 一 种 数据 结构 ， 在 该 结构 中 只 读 操 作 无 需 加 锁 ， 代 价 是 更 新 操作 的 复杂 度 稍 有 提 
高 。 一 般 来 讲 ， 懒 惰 更 新 策略 中 的 写 操作 需要 先 达到 其 在 “ 轩 辑 上 ”的 目标 (前 提 是 不 影响 
其 他 线程 的 并 发 访问 )， 然 后 再 进一步 执行 真正 的 更 新 操作 ， 并 确保 数据 结构 回归 正常 状态 。 
我 们 可 以 通过 一 个 例子 来 理解 懒惰 更 新 的 含义 : 对 于 以 链表 方式 实现 的 集合 ，remove 操作 首 
先 需 要 (在 逻辑 上 ) 将 待 移 除 元 素 打 上 aeletea 标记 ， 然 后 再 将 其 前 一 个 节点 的 指针 重 定向 ， 
从 而 真正 实现 节点 的 移 除 。 为 避免 并 发 更 新 可 能 带 来 的 问题 ， 所 有 操作 都 需要 在 持 有 相关 元 
素 锁 的 前 提 下 执行 。remove 操作 必须 依照 先 标 记 再 移 除 的 顺序 执行 ， 这 样 才能 确保 其 他 线 
程 能 够 在 不 加 锁 的 情况 下 正确 进行 读 操 作 。 向 链表 中 插入 元 素 的 操作 只 需要 更 新 数据 结构 中 
的 next 指针 ， 因 而 只 需要 一 次 更 新 操作 ( 即 无 需 事先 设置 标记 )， 当 然 ， 这 一 操作 同样 必须 
在 持 有 相关 元 素 锁 的 前 提 下 执行 。 

非 阻塞 (non-blocking) : 在 非 阻塞 策略 中 ， 对 数据 结构 的 所 有 操作 均 无 需 使 用 锁 ， 仅 依 
赖 原子 更 新 原 语 便 可 完成 数据 结构 的 状态 变更 。 一 般 来 说 ， 状 态 变 更 操作 通常 都 会 存在 某 些 
特殊 的 原子 更 新 事件 ， 这 些 事件 的 发 生 点 即 为 该 操作 的 线性 化 点 。 与 此 相 比 ， 基 于 锁 的 策略 
则 需要 引入 临界 区 来 标识 线性 化 “点 ”9 。 非 阻塞 策略 的 并 发 能 力 可 以 通过 前 进 保障 来 衡量 ， 
如 13.4 节 所 述 : 无 锁 实现 可 能 允许 部 分 线程 出 现 饥 饿 ; 无 障碍 实现 中 的 每 个 线程 可 能 需要 
足够 长 的 时 间 进 行 独占 式 操作 ， 才 能 确保 算法 整体 往 下 执行 ;无 等 待 实现 可 以 确保 所 有 线程 
都 能 正确 往 下 执行 。 三 种 前 进 保障 在 实现 上 的 难度 依次 增 大 。 本 章 的 后 续 部 分 简要 介绍 了 部 
分 无 锁 算法 实现 ， 其 无 等 待 实现 版 本 可 参见 Herlihy 和 Shavit [2008]. 

本 节 后 续 部 分 将 简单 介绍 与 并 行 回收 和 并 发 回收 相关 性 较 高 的 算法 ,算法 的 具体 实现 基 
本 都 遵循 Herlihy 和 Shavit 的 建议 。 


13.8.1 并 发 栈 


我 们 首先 介绍 如 何 基于 单 链 表 来 实现 并 发 栈 。 由 于 栈 的 可 操作 位 置 只 有 一 处 ， 所 以 各 
种 基于 锁 的 策略 在 性 能 上 差异 不 大 ， 其 实现 代码 也 比较 简单 ， 我 们 不 在 此 逐一 列 出 。 算 法 
13.27 展示 了 一 种 栈 的 无 锁 实现 方式 ， 其 push 操作 的 无 锁 实 现 相对 容易 ， 但 pop 操作 则 稍 
微 复 杂 一 些 。popaBa 是 pop 操作 的 一 种 简单 实现 方案 ， 它 基于 compareandset Ri, 但 其 
无 法 解决 ABA 问题 ， 即 : 在 当前 线程 执行 pop 操作 时 ， 如 果 其 他 线程 将 currTop 所 引用 的 
节点 弹出 ， 然 后 该 节点 在 某 一 时 刻 又 被 重新 压 人 栈 中 ， 且 其 next 指针 与 currTop .next 不 
同 ， 则 当前 线程 可 能 会 误 认 为 栈 尚未 发 生变 化 。 算 法 13.27 同时 还 展示 了 基于 Loadbinked/ 
StoreConditionally 或 者 compareAndsetwide 原 语 的 pop 实现 方案 ， 它 们 都 可 以 解决 ABA 
问题 。 


O 由 于 临界 区 需要 依赖 互 斥 机制 ， 所 以 只 有 当 其 他 并 发 操作 也 尝试 进入 临界 区 时 ， 临 界 区 才能 称 为 线性 化 点 。 
懒惰 更 新 策略 通常 存在 单个 线性 化 点 。 
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算法 13.27 基于 单 链表 的 无 锁 栈 实现 


shared topCnt[2] + [null, any value| 


1 

2 shared topAddr + &topCnt[0] /* 栈 顶 */ 
3 shared cntAddr + &topCnt[1]} /* RE popCount 使 用 的 变更 计数 */ 
4 

s push(val): 

6 node ¢ new Node(value: val, next: null) 

7 loop 

8 

9 


currTop + *topAddr 
node.next 全 currTop 


10 if CompareAndSet (topAddr, currTop, node) 

n return 

R 

3 popABA(): 

“ loop 

15 currTop + *topAddr 

16 if currTop = null 

17 return null 

18 /* wR currTop 所 指向 的 节点 得 到 复 用 ， 则 可 能 产生 ABA 问题 */ 
19 next + currTop.next 


if CompareAndSet(topAddr, currTop, next) 
return currTop.value 


pop(): 
loop 

currTop + LoadLinked(topAddr) 

if currTop = null 
return null 

next ¢ currTop.next 

if StoreConditionally(topAddr, next) 
return currTop.value 


s ESNE RReBK EB 


s 


popCount(): 
loop 
currTop + *topAddr 
if currTop = null 
return null 
currCnt + *cntAddr $ 
nextTop + currTop.next 
if CompareAndSetWide(&topCnt, currTop, currCnt, 
nextTop, currCnt+1) 
return currTop.value 


sse 8k Be BB 


s 


对 于 基于 数组 的 并 发 栈 ， 最 好 的 实现 方案 是 使 用 锁 。 并 发 栈 通常 都 会 存在 性 能 瓶颈 ， 这 
不 仅 是 由 于 各 处 理 器 必须 保证 高 速 缓存 和 内 存 的 一 致 性 ， 而 且 因 为 所 有 操作 都 必须 串 行 化 。 
针对 这 一 问题 存在 多 种 解决 方案 。Blelloch 和 Cheng [1999] 提出 了 一 种 无 锁 解 决 方案 ， 该 
方案 要 求 所 有 线程 的 并 发 操作 要 么 必须 全 部 是 压 人 操作 ， 要 么 必须 全 部 是 弹出 操作 ， 从 而 
可 以 通过 Fetchandaaa 原 语 而 非 锁 来 控制 栈 顶 指针 ， 我 们 将 在 第 14 章 详细 介绍 这 一 算法 。 
Herlihy 和 Shavit 的 文献 的 第 11 章 介 绍 了 一 种 并 发 无 锁 栈 实现 方案 ， 在 该 策略 中 ， 线 程 在 竞 
争 情况 比较 严重 时 会 尝试 在 额外 的 缓冲 区 中 完成 操作 ， 即 如 果 弹 出 操作 发 现 待 压 人 操作 ， 或 
者 压 入 操作 发 现 待 弹出 操作 ， 则 压 入 操作 将 立刻 满足 弹出 操作 : 两 个 操作 相互 抵消 。 这 一 操 
作 发 生 的 瞬间 (必然 是 压 入 操作 在 前 、 弹 出 操作 在 后 ) 满足 线性 化 要 求 ， 同 时 该 操作 不 会 受 
到 主体 栈 中 任何 操作 的 影响 。 
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13.8.2 ”基于 单 链表 的 并 发 队列 


并 发 队列 存在 两 个 可 操作 位 置 ， 元 素 从 队 首 出 队 ， 从 队 尾 人 队 ， 因 而 其 比 并 发 栈 具 有 更 
高 的 并 发 化 价值 。 我 们 可 以 为 队列 设置 一 个 “虚拟 ”节点 ， 该 节点 位 于 下 一 个 即将 出 队 的 元 
素 之 前 。heaa 指针 指向 虚拟 节点 ，tail 指针 指向 最 后 人 队 的 元 素 。 如 果 队 列 为 空 ， 则 tail 
也 指向 虚拟 节点 。 

算法 13.28 展示 了 基于 细 粒 度 锁 的 并 发 队列 实现 ， 每 个 可 操作 位 置 对 应 一 个 锁 。 需 要 注 
意 的 是 ，remove 操作 将 head 指针 重 定向 到 虚拟 节点 的 下 一 个 节点 ， 因 而 当 首次 执行 remove 
成 功 后 ， 原 始 的 虚拟 节点 将 被 释放 ， 而 包含 刚刚 出 队 的 值 的 节点 则 将 成 为 新 的 队 首 虚拟 节 
点 。 这 一 版 本 的 Queue 无 法 限制 队列 的 最 大 长 度 。 算 法 13.29 所 展示 的 Boundedoueue 也 使 
用 类 似 机 制 实现 ， 但 它 能 够 限制 队列 的 最 大 长 度 。 为 避免 将 队列 长 度 变更 操作 集中 在 变量 
size 域 而 引发 竞争 ， 该 算法 分 别 维护 了 整个 队列 入 队 操 作 和 出 队 操 作 的 次 数 。 即 使 这 两 个 
值 出 现 回 绕 也 不 会 出 现 问题 ， 因 而 只 要 确保 用 于 存储 这 两 个 值 的 域 能 够 表示 从 0 到 MAX 之 
间 的 MAX + 1 个 整数 即 可 。 另 外 ， 如 果 这 两 个 计数 变量 位 于 同一 个 高 速 缓存 行 中 ， 则 该 算 
法 的 性 能 将 不 会 优 于 仅 使 用 单个 size 域 的 策略 。 


算法 13.28 ”基于 单 链表 的 细 粒 度 锁 并 发 队列 


shared head + new Node(value: dontCare, next: null) 
shared tail ¢ head 

shared addLock + UNLOCKED 

shared removeLock ¢~ UNLOCKED 


o onana BN 


add(val): 

node + new Node(value: val, next: null) 
lock(&addLock) 
tail.next ¢ node 

10 tail ¢ node 

u unlock(&addLock) 

12 

3 remove(): 

“u lock(&removeLock) 

15 node ¢ head.next 

16 if node = null 

1 unlock(&removeLock) 

18 return EMPTY /* 队列 为 空 */ 

19 val ¢ node.value 

20 head + node 

a unlock(&removeLock) 

2 return val 


算法 13.29 ”基于 单 链表 的 细 粒 度 锁 有 界 并 发 队列 


1 shared head 全 new Node(value: dontCare, next: null) 
2 shared tail ¢ head 

3 shared addLock ¢ UNLOCKED 

4 shared removeLock + UNLOCKED 

s shared numAdded ¢ 0 

6 shared numRemoved + 0 

7 
8 
9 


add(val): 
node + new Node(value: val, next: null) 
10 lock(&addLock) 
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u if numAdded — numRemoved = MAX 


n unlock(&addLock) 

3 return false /* 队列 已 满 */ 

“4 tail.next ¢ node 

15 tail + node 

6 numAdded + numAdded + 1 /* 即使 发 生 整 数 回 绕 ， 算 法 依然 正确 */ 
17 unlock(&addLock) 

18 return true /* ANRH */ 


» remove(): 
a lock(&removeLock) 

z2 node + head.next 

z if numAdded — numRemoved = 0 
u unlock(&removeLock) 

35 return EMPTY 
26 

27 

28 

2 

wn 


* 队列 为 空 */ 


em 


val + node.value 

head + node 

numRemoved ¢ numRemoved + 1 /* 即使 发 生 整 数 回 绕 ， 算 法 依然 正确 */ 
unlock(&removeLock) 

return val 


上 述 并 发 队列 还 具有 一 个 重要 的 特征 : 如 果 只 有 一 个 线程 可 以 执行 人 队 (或 者 出 队 ) 操 
E, WABA (或 者 出 队 ) 操作 便 无 需 加 锁 。 特 别 地 ， 如 果 能 够 执行 人 队 和 出 队 操 作 的 线程 各 
仅 有 一 个 ， 则 整个 算法 可 以 完全 不 需要 锁 。 垃 圾 回收 算法 中 常见 的 一 种 场景 是 存在 多 个 人 队 
线程 和 一 个 出 队 线程 ， 尽 管 其 仍 需 要 在 队 尾 加 锁 ， 但 是 与 在 队列 两 端 都 需要 加 锁 的 一 般 算法 
相 比 ， 该 算法 显然 更 加 优秀 。 

对 于 基于 单 链 表 的 并 发 队列 ， 其 他 基于 锁 的 策略 〈 例 如 乐观 锁 或 者 懒惰 更 新 ) 在 本 质 上 
并 不 能 将 队列 的 并 发 能 力 提 升 到 比 细 粒 度 锁 更 高 的 程度 。 

算法 13.30 展示 了 基于 单 链表 并 发 队列 的 无 锁 实现 方案 。 该 方案 的 巧妙 之 处 在 于 其 人 队 
操作 需要 两 步 完 成 : 首先 需要 将 当前 的 队 尾 节点 更 新 到 新 节点 ， 然 后 再 将 tail 指针 更 新 到 
新 节点 。 无 锁 算法 必须 假定 其 他 正在 执行 人 队 (或 者 出 队 ) 操作 的 线程 能 够 感知 到 和 人 队 的 中 
间 状 态 。 该 算法 解决 这 一 问题 的 方案 是 : 任何 线程 在 发 现 tail 指针 出 现 “不 同步 ”时 将 其 
修正 ， 因 此 任何 线程 均 无 需 等 待 其 他 线程 完成 这 一 操作 ， 这 便 是 无 等 待 算法 中 常用 的 互助 
(help) 策略 。 但 是 ,该 算法 本 身 却 达 不 到 无 等 待 的 前 进 保障 级 别 。 


算法 13.30 ”基于 单 链表 并 发 队列 的 无 锁 实现 


shared head + new Node(value: dontCare, next: null) 
shared tail ¢ head 


1 

2 

3 

4 add(val): 

5 node + new Node(value: val, next: null) 

6 loop 

7 currTail + LoadLinked(&tail) 

8 currNext 人 currTail.next 

9 if currNext # null 

10 /* tail 指针 出 现 不 同步 ， 尝 试 帮助 其 修复 */ 

u StoreConditionally(&tail, currNext) 

2 continue /* 在 尝试 修复 之 后 重新 尝试 入 队 */ 
B if CompareAndSet(&currTail.next, null, node) 
14 /* 入 队 ， 并 尝试 更 新 tail 指针 */ 

5 StoreConditionally(&tail, node) 


16 /* 即使 失败 也 可 以 接受 ， 因 为 其 他 线程 已 经 (或 者 将 会 ) Æ tail 更 新 到 同步 状态 */ 
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17 return 


» remove(): 


20 loop 

a currHead + LoadLinked(&head) 

2 next ¢ currHead.next 

2B if next = null 

2 if StoreConditionally(&head, currHead) 

5 /* head 未 发 生变 化 ， 因 而 队列 必然 为 空 */ 

26 return EMPTY /* 队列 为 空 */ 
A continue /* head 可 能 发 生变 化 ， 重 试 */ 
28 

» currTail + tail 

30 if currHead = currTail 

31 /* 第 24 行 判断 队列 非 空 ， 而 此 处 又 判断 队列 为 空 ， 发 生 不 同步 ， 帮 助 修 复 */ 
2 currTail + LoadLinked(étail) 

3 next ¢ currTail.next 

a if next # null 

3 StoreConditionally(&tail, next) 

36 Continue 

37 

3 /* 队列 非 空 ， 且 状态 同步 ， 尝 试 移 除 首 节点 */ 

EJ val + next .value 

如 if StoreConditionally(&head, next) 


return val 


/* KRM BK */ 


$ £ 


13.8.3 ”基于 数组 的 并 发 队列 


与 基于 链表 的 队列 相 比 ， 基 于 数组 的 队列 不 仅 具 有 更 高 的 存储 密度 ， 而 且 不 必 动 态 分 配 
节点 。 有 界 队 列 可 以 使 用 环 状 缓冲 区 的 方式 实现 ， 算 法 13.31 即 展示 了 使 用 细 粒 度 锁 的 环 状 
缓冲 区 。 我 们 也 可 对 其 进行 改进 : 省 略 numRemovea 和 numadded 变量 ， 并 通过 tail 和 head 
之 间 的 求 差 取 模 运算 来 获取 队列 长 度 ， 如 算法 13.32 所 示 。 当 max 为 2 的 整数 次 寡 时 算法 性 
能 最 佳 ， 因 为 此 时 取 模 操作 可 以 通过 位 掩 码 操作 完成 。 引 入 Mopuzus 变量 的 原因 在 于 ，tail 
和 head 之 间 的 距离 ( 即 缓冲 区 中 元 素 的 数目 ) 存在 MAX + 1 种 可 能 ， 因 此 取 模 操作 的 模 数 
必须 大 于 Max。 与 此 同时 ， 为 确保 将 head 和 tail 对 max 取 模 时 能 够 正确 地 计算 出 缓冲 区 中 
对 应 的 索引 号 ， 模 数 必须 为 max 的 倍数 。max * 2 是 满足 这 一 要 求 的 最 小 值 ， 同 时 也 可 保证 
当 max 为 2 的 整数 次 寡 时 ，Mopurus 也 是 2 MERU HE. AS PFET A tail - heaa 的 值 加 
上 mopuLvus， 其 目的 在 于 确保 进行 取 模 操作 的 值 为 正 数 ， 但 如 果 使 用 掩 码 操 作 来 实现 取 模 ， 
或 者 实现 语言 已 经 提供 恰当 的 取 模 语义 ( 即 与 零 相对 应 的 值 朝向 一 % 方 向 )， 则 额外 加 上 
MODULUS 的 操作 可 以 省 略 。 

如 果 可 以 使 用 特殊 的 值 来 表示 缓冲 区 的 空闲 槽 ， 则 环 状 缓冲 区 的 实现 可 以 得 到 进一步 简 
化 ， 如 算法 13.33 所 示 。 

一 种 较为 普遍 的 情况 是 缓冲 区 中 仅 有 一 个 人 队 线 程 和 一 个 出 队 线 程 (例如 Oancea 等 
[2009] 所 使 用 的 缓冲 区 )， 此 时 环 状 缓冲 区 的 实现 可 以 更 加 简单 ， 如 算法 13.34 所 示 。 开 发 者 
需要 意识 到 ， 在 不 同 平台 上 实现 同一 种 算法 时 可 能 需要 进行 适当 调整 ， 该 算法 即 是 一 个 典型 
案例 。 此 处 算法 的 工作 流程 与 其 在 Intel x86 处 理 器 上 的 表现 相同 ， 因 为 该 处 理 器 能 够 严格 
确保 所 有 处 理 器 以 相同 的 顺序 感知 到 存储 操作 的 发 生 顺 序 。 

但 是 在 PowerPC 平台 上 ， 对 于 带 “$” 标 记 的 行 ， 则 需要 特别 注意 其 执行 顺序 。 一 种 策 
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略 是 插入 内 存 屏障 ， 如 Oancea 等 所 指出 的 那样 。 在 aaa 操作 中 ， 我 们 需要 在 buffer [tail] 
的 写 操作 和 tail 的 写 操 作 之 间 (第 9 行 之 后 ) 插入 lwsync 指令 来 作为 存储 -存储 内 存 屏 
障 (store-store memory fence) 8。 引 入 该 指令 之 后 ， 如 果 出 队 线 程 遵从 适当 的 加 载 指令 顺 
序 ， 则 必然 会 先 感 知 到 butter 的 变化 ， 然 后 再 感知 到 tail 的 变化 。 同 理 ， 我们 还 需要 
在 buffer [tail] 的 写 操作 之 前 (第 9 行 之 前 ) 增加 isyne 指令 来 作为 加 载 - 存储 内 存 屏 障 
(load-store memory fence) 98， 该 指令 可 以 确保 处 理 器 不 会 在 加 载 head 变量 之 前 进行 试探 性 
的 写 操作 ， 否 则 将 可 能 导致 aaa 操作 覆盖 正在 被 出 队 线 程 读 取 的 值 。 

类 似 地 ， 在 remove 方法 中 ,我 们 需要 在 加 载 buffer [head] 和 更 新 head 之 间 (第 16 行 
之 后 ) 插入 lwsync 指令 ; 同时 需要 在 读 取 butter 之 前 (第 16 行 之 前 ) 插入 isync 指令 ， 该 
指令 将 在 加 载 tail 和 从 buffer [head] 中 加 载 数据 之 间 扮 演 加 载 - 加载 内 存 屏 障 (load-load 
memory fence) 的 角色 。 


算法 13.31 基于 细 粒 度 锁 的 环 状 缓冲 区 


1 shared buffer[MAX] 

2 shared head + 0 

3 shared tail ¢ 0 

4 shared numAdded + 0 

s shared numRemoved + 0 

6 shared addLock ¢ UNLOCKED 

7 shared removeLock +— UNLOCKED 
8 

9 


add(val): 
10 lock(&addLock) 
u if numAdded — numRemoved = MAX 
2 unlock(&addLock) 
13 return false /* 入 队 失 败 */ 
u“ buffer[tail] + val 
15 tail + (tail + 1) % MAX 
16 numAdded ¢ numAdded + 1 
17 unlock(&addLock) 
18 
9 remove(): 
20 lock(&removeLock) 
21 if numAdded — numRemoved = 0 
2 unlock(&removeLock) : 
zB return EMPTY /* 队列 为 空 */ 
u val + buffer[head] 
5 head + (head + 1) % MAX 


© lwsync 指令 可 以 确保 处 理 器 在 发 射 该 指令 之 后 ， 本 处 理 器 的 所 有 后 续 指 令 必须 等 待 lwsync 指令 之 前 的 内 
存 访问 操作 执行 完毕 且 被 所 有 其 他 处 理 器 感知 到 。 该 指令 的 含义 是 “ 轻 量 级 同步 ”( light-weight sync)， 同 时 
也 是 sync 指令 的 一 种 实现 版 本 。 与 之 相对 应 的 ,“ 重 量 级 ” ( heavy-weight) 同步 的 指令 是 sync， 该 指令 在 
普通 的 缓存 内 存 之 外 还 会 处 理 输入 /输出 设备 内 存 。lwsync 和 sync 指令 在 某 种 程度 上 都 存在 较 大 的 开销 ， 
它们 在 实现 上 通常 都 要 求 处 理 器 在 进一步 执行 内 存 访 问 操作 之 前 等 待 写 缓冲 区 刷新 完毕 。 这 意味 着 处 理 器 需 
要 等 待 处 理 器 间 缓 存 同 步 的 完成 。 

© isyne 指令 可 以 确保 处 理 器 在 发 射 该 指令 之 后 ， 本 处 理 器 的 所 有 后 续 指 令 必须 等 待 isync 指令 之 前 的 指令 
执行 完毕 。 该 指令 可 以 将 某 一 点 之 前 的 内 存 加 载 操作 与 该 点 之 后 的 内 存 访问 操作 隔离 ， 但 并 不 能 确保 其 他 
处 理 器 所 感知 到 的 指令 执行 顺序 能 够 与 本 处 理 器 的 指令 发 射 顺序 保持 一 臻 (如 果 要 达到 这 一 要 求 ， 必 须 使 用 
sync 指令 )。isync 指令 可 能 更 加 高 效 的 原因 之 一 在 于 ， 其 仅 引 入 了 处 理 器 本 地 等 待 ， 即 仅 要 求 执行 该 指 
令 的 处 理 器 等 待 其 指令 流水 线 为 空 ; 该 指令 本 身 不 需要 引入 高 速 缓存 一 致 性 相关 行为 。 
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head + (head + 1) % MAX 
numRemoved ¢ numRemoved + 1 
unlock(&removeLock) 

return val 


算法 13.32 所 需 变量 较 少 的 环 状 缓冲 区 


shared buffer[MAX] 


MODULUS = MAX * 2 /* 参见 文中 的 解释 */ 
shared head + 0 /*0 < head < MODULUS */ 
shared tail + 0 /*0 < head < MODULUS */ 


shared addLock ¢ UNLOCKED 
shared removeLock ¢ UNLOCKED 


add(val): 

lock(&addLock) 

if (tail 一 head + MODULUS) % MODULUS = MAX 
unlock(&addLock) 
return false /* 入 队 失 败 */ 

buffer[tail % MAX] + val 

tail + (tail + 1) % MODULUS 

unlock(&addLock) 

return true /* 入 队 成 功 */ 


remove(): 

lock(&removeLock) 

if (tail — head + MODULUS) % MODULUS = 0 
unlock(&removeLock) 
return EMPTY /* RAAB */ 

local val + buffer[head % MAX] 

head ¢ (head + 1) % MODULUS 

unlock(&removeLock) 

return val 


算法 13.33 ”使 用 特殊 值 来 表示 空闲 槽 的 环 状 缓冲 区 


shared buffer[MAX] 全 [EMPTY,...] 
shared head ¢ 0 

shared tail + 0 

shared addLock + UNLOCKED 
shared removeLock ¢ UNLOCKED 


add(val): 
lock(&addLock) 
if buffer[tail] # EMPTY 
unlock(&addLock) 
return false /* 入 队 失 败 */ 
buffer[tail] + val 
tail + (tail + 1) % MAX 
unlock(&addLock) 
return true /* 入 队 成 功 */ 


remove(): 
lock(&removeLock) 
if buffer[head] = EMPTY 
unlock(&removeLock) 
return EMPTY / 队列 为 空 */ 
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val + buffer[head] 

head + (head + 1) % MAX 
unlock(&removeLock) 
return val 


BRB RK 


算法 13.34 单 入 队 线 程 / 单 出 队 线程 无 锁 环 状 缓冲 区 [Oancea ¥, 2009] 


shared buffer[MAX] 
shared head + 0 /* 下 一 个 尝试 出 队 的 槽 */ 
shared tail + 0 /* 下 一 个 用 于 入 队 的 槽 */ 


newTail + (tail 十 1) % MAX 
if newTail = head 
return false 
buffer[tail] + val $ 
10 tail + newTail 
n return true 


1 
2 
3 
4 
s add(val): 
6 
7 
8 
9 


3 remove(): 


1 if head = tail 

15 return EMPTY /* RAAB */ 

16 value + buffer[head] $ 
17 head + (head + 1) % MAX $ 
18 return value 


Oancea 等 还 提出 了 男 一 种 解决 方案 ， 即 remove 方法 显 式 地 将 null (EW emery (A A 
中 ， 而 ada (或 remove) 方法 在 将 新 值 (ER emery (A) 写 人 槽 中 之 前 必须 先 等 待 其 所 关注 的 
WES (或 者 非 空 )。 由 于 入 队 线 程 和 出 队 线程 各 仅 有 一 个 ， 能 够 写 信 非 空 值 和 空 值 的 线程 
也 各 仅 有 一 个 线程 ， 且 每 个 线程 在 执行 写 操作 之 前 都 会 先 观察 另 一 个 线程 之 前 写 人 的 值 ， 所 
以 两 个 线程 对 缓冲 区 的 访问 不 会 出 现 错误 性 的 交错 。 类 似 地 ，heaa 和 tail 均 只 会 有 一 个 线 
程 操 作 ， 因 而 在 最 差 情况 下 ， 某 一 线程 最 多 只 会 获取 已 经 过 时 的 状态 。 该 解决 方案 无 需 引 
人 内 存 屏 障 ， 但 是 出 队 线 程 对 缓冲 区 的 操作 可 能 会 比 基 于 内 存 屏 障 的 策略 引入 更 多 的 高 速 
缓存 冲突 。Oancea 等 将 上 述 两 种 方案 相 结合 ， 但 是 正如 我 们 前 面 所 论述 的 ， 任 意 一 种 方案 
均 能 独立 满足 要 求 。 这 些 细节 表明 ， 在 宽松 内 存 顺 序 下 正确 地 实现 并 发 算法 需要 十 分 小 心 
PERL. 

如 果 开 发 者 是 以 缓冲 区 方式 使 用 队列 ， 即 元 素 出 队 的 顺序 不 必 与 其 入 队 的 顺序 完全 一 
致 ， 则 在 该 场景 下 实现 无 锁 缓冲 区 并 非 难 事 。 我 们 假定 某 个 数组 足够 大 ， 且 永远 不 会 发 生 
回 绕 ， 算 法 13.35 即 为 无 锁 缓冲 区 的 一 种 实现 方案 ， 它 假定 缓冲 区 中 所 有 覃 的 初始 值 均 为 
EMPTY。 

该 算法 存在 大 量 的 重复 扫描 ， 为 此 ， 算 法 13.36 引入 了 一 个 索引 值 lower 来 表示 算法 每 
次 开始 扫描 的 位 置 。 该 算法 不 仅 需要 识别 出 空 构 ， 还 需要 能 够 识别 出 已 被 填充 然后 又 被 清空 
的 槽 ， 代 码 使 用 usgp 来 表示 此 类 覃 的 状态 。 

数组 的 长 度 不 可 能 无 限 大 ， 因 而 我 们 需要 对 上 述 算法 进一步 优化 ， 即 实现 无 锁 环 状 缓冲 
区 ， 如 算法 13.37 所 示 。 在 此 时 的 aaa 方 法 中 ， 在 增加 heaa 的 索引 之 前 我 们 必须 小 心地 将 
处 于 usen 状态 的 槽 修改 为 EMprY。 此 处 索引 值 的 范围 也 可 与 算法 13.32 类 似 ， 即 其 最 大 值 可 
以 达到 max 的 2 倍 。 
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算法 13.35 ”基于 数组 的 、 无 限 长 的 无 锁 缓 冲 区 


shared buffer[ |¢ [EMPTY,...] /* 无 限 大 的 缓冲 区 (无 法 实现 ) */ 
shared head + 0 /* 下 一 个 入 队 楷 */ 
add(val): 


pos + FetchAndAdd(&head, 1) 
buffer[pos] + val 


remove(): 
limit ¢ head 
pos 全 一 二 
loop 
pos + pos + 1 
if pos = limit 
return null /* 未 在 队列 中 找到 元 素 */ 
val + LoadLinked(&buffer[pos]) 
if val Æ EMPTY 
if StoreConditionally(&buffer|[pos], EMPTY) 
return val 


算法 13.36 ”基于 数组 的 、 无 限 长 的 无 锁 缓冲 区 ( 增 量 扫描 ) 





shared buffer[ |< [EMPTY,...] /* 无 限 大 的 缓冲 区 (无 法 实现 ) */ 
shared head + 0 /* 下 一 个 入 队 槽 */ 

shared lower + 0 /* 每 次 扫描 的 起 始 索引 值 */ 
add(val): 


pos + FetchAndAdd(&head, 1) 
buffer[pos] + val 


remove(): 
limit + head 
currLower + lower 
pos ¢ currLower — 1 
loop 
pos + pos + 1 
if pos = limit 
return null /* 未 找到 元 素 */ 
val + LoadLinked(&buffer[pos]) 
if val = EMPTY 
continue 
if val = USED 
if pos = currLower 
/* 尝试 增加 lower */ 


currLower + LoadLinked(&lower) 


if pos = currLower 
StoreConditionally(&lower, pos+1) 
continue 


/* 尝试 获取 数据 */ 
if StoreConditionally(&buffer[pos]，USED) 
return val 





算法 13.37 基于 数组 的 有 界 无 锁 缓冲 区 





1 shared buffer[MAx] 全 [EMPTY,...] 


2 


3 


MODULUS = 2 * MAX 
shared head + 0 /* 下 一 个 用 于 填充 的 槽 */ 
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shared lower + 0 /* 索引 值 从 lower 到 head-1 的 槽 可 能 会 包含 数据 */ 


loop 
currHead ¢ head 


5 
6 add(val): 
8 
9 /* 在 使 用 原子 操作 之 前 预 读 取 数 据 */ 


0 oldVal + LoadLinked(sbuffer[currHead % MAX]) 

u if oldVal = USED 

12 currLower + lower 

3 if (currHead % MAX) = (currLower % MAX) 

u“ & (currHead # currLower) 

15 advanceLower() /* lower 已 经 落后 head 整个 缓冲 区 的 距离 */ 
16 Continue 

1 /* 尝试 将 状态 为 USED 的 覃 清 空 ， 但 前 提 是 该 槽 中 的 数据 未 发 生变 化 */ 

18 if currHead = head 

19 StoreConditionally(&buffer[currHead % MAX], EMPTY) 

20 continue 

a if oldVal Æ EMPTY 

2 if currHead # head 

3 continue /* 状态 已 发 生变 化 ， 重 试 */ 
a return false /* 缓冲 区 满 ， 插 入 失败 */ 
和 currHead + LoadLinked(&head) /* 尝试 占据 head MRA */ 
26 /* 加 载 链接 / 条 件 存储 内 部 的 再 次 检测 */ 

z if buffer[currHead % MAX] = EMPTY 

2 if StoreConditionally(&head, (currHead + 1) % MODULUS) 

» buffer[currHead] + val 

x0 return true /* 插入 缓冲 区 成 功 */ 
31 

2 remove(): 

3 advanceLower() 

34 limit 人 head 

35 scan + lower 一 1 

36 loop 

3 scan + (scan + 1) % MODULUS 

38 if scan = limit 

3 return null /* 未 找到 元 素 */ 
如 /* 在 使 用 原子 操作 之 前 首先 预 读 取 数据 */ 

a val + LoadLinked(&buffer[scan % MAX]) 

2 if val = EMPTY || val = USED 

s continue 

“ /* 尝试 将 数据 移出 */ 

5 if StoreConditionally(&buffer[scan % MAX], USED) 

« /* 注意 : 由 于 此 处 并 不 是 队列 ， 所 以 移出 并 非 USED 或 者 EMPTY 的 元 素 通 常 都 是 安全 的 */ 


47 return val 

s advanceLower(): 

名 if buffer[lower % MAX] # USED 
50 


return /* 在 使 用 原子 操作 之 前 快速 返回 */ 
51 loop 
52 currLower + LoadLinked(&lower) 
5 if buffer[currLower % MAX] = USED 
s if StoreConditionally(&lower, (lower + 1) % MODULUS) 
s continue 
56 return 


13.8.4 支持 工作 窃取 的 并 发 双 端 队列 


为 支持 工作 窃取 ，Arora 等 [1998] 设计 了 一 种 无 锁 双 端 队列 。 本 地 工作 线程 可 以 在 队列 
中 压 人 或 者 弹出 工作 单元 ， 同 时 其 他 线程 也 可 从 中 移出 (窃取 ) 工作 单元 。 在 该 设计 中 ， 本 
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地 工作 线程 从 双 端 队列 的 一 端 执行 压 人 或 者 弹出 操作 ， 而 其 他 线程 则 从 另 一 端 完成 工作 窃取 
( 即 : 双 端 队列 只 有 一 个 输入 端 )。 算 法 13.38 展示 了 基于 加 载 链接 /条 件 存储 的 实现 方案 , 
该 方案 可 以 避免 ABA 问题 。 我 们 也 可 为 tail 端的 索引 绑 定 一 个 计数 器 ， 从 而 可 以 基于 
CompareAndswap 安全 地 实现 相同 的 目的 。 

对 于 本 地 工作 线程 而 言 ， 向 双 端 队列 中 压 人 数据 十 分 简单 ， 且 无 需 任何 同步 操作 ， 而 弹 
出 操作 则 需要 判断 所 弹出 的 元 素 是 否 为 双 端 队列 中 的 最 后 一 个 ， 如 果 结 果 为 真 ， 则 可 能 和 其 
他 的 非 本 地 窃取 线程 产生 竞争 。 本 地 工作 线程 和 其 他 线程 都 可 能 会 尝试 更 新 tail ， 只 有 竞 
争 的 优胜 者 才能 真正 获取 双 端 队列 中 的 工作 单元 。 在 产生 竞争 的 情况 下 ,不论 本 地 工作 线程 
是 否 苋 争 成 功 ， 其 都 会 将 tail KENE (第 26 行 )， 但 这 并 不 会 影响 其 他 正在 进行 工作 窃 
取 的 线程 ， 因 为 在 出 现 竞 争 时 ， 其 他 线程 要 么 会 竞争 失败 (从 而 无 法 获取 工作 单元 )， 要 人 么 
已 经 窃取 成 功 (此 时 对 tail 的 修改 将 不 影响 任何 线程 )。 另 外 需要 特别 注意 的 是 ，pop 方法 
将 top 置 零 的 操作 必须 先 于 将 tail 置 零 的 操作 ， 从 而 确保 remove 过 程 永远 满足 top < tail 
这 一 不 变 式 。 使 用 top 和 tail 两 个 变量 还 存在 另 一 个 优势 ， 即 通过 top - tail 便 可 快速 得 
出 双 端 队列 中 元 素 的 个 数 〈 除 非 是 在 将 这 两 个 变量 都 置 为 零 的 过 程 中 ， 此 时 它们 之 间 的 差 可 
能 为 负数 )。 


算法 13.38 ”支持 工作 窃取 的 无 锁 双 端 队列 [Arora 等 ，1998] 


shared deque[MAX] 


1 

2 shared top + 0 /* 双 端 队列 中 最 后 入 队 元 素 的 索引 值 + 1 */ 
3 shared tail + 0 /* 双 端 队列 中 最 先入 队 元 素 的 索引 值 */ 

4 

s push(val): /* 本 地 工作 线程 通过 该 方法 来 压 入 工作 单元 */ 
6 currTop + top 

7 if currTop > MAX 

8 return false /* 双 端 队列 溢出 */ 
9 deque[currTop] + val 

10 top ¢ currTop + 1 

u return true /* 压 入 成 功 */ 

12 

3 pop(): /* 本 地 工作 线程 从 双 端 队列 的 本 地 端 弹出 一 个 工作 单元 */ 

14 currTop <— top = i 

15 if currTop < 0 

16 return null /* 双 端 队列 为 空 */ 
17 top +- currTop 

18 val + deque[currTop] 

19 currTail + LoadLinked(&tail) 

20 if currTop > currTail 

a return val /* 此 时 不 会 与 其 他 线程 发 生 竞 争 */ 

2 /* 可 能 与 其 他 线程 产生 竞争 ， 队 列 可 能 为 空 */ 

23 top + 0 

A if StoreConditionally(&tail, 0) 

25 return val /* 本 地 工作 线程 竞争 胜出 ， 并 成 功 获取 一 个 工作 单元 */ 
26 tail ¢ 0 

27 return null 

28 

2» remove(): /* 从 其 他 线程 的 双 端 队列 中 窃取 工作 单元 */ 
30 loop 

O 该 算法 中 的 变量 名 称 与 Arora 等 [1998] 文献 中 的 稍 有 不 同 。 在 该 算法 中 ,我 们 将 队列 中 由 本 地 工作 线程 访问 


的 一 端的 索引 称 为 top， 而 将 男 一 端的 索引 称 为 tail， 此 时 对 于 本 地 工作 线程 而 言 ， 双 端 队 列表 现 得 更 像 是 一 
个 栈 ， 而 对 于 其 他 线程 而 言 ， 双 端 队 列 则 更 像 是 队列 。 
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a currTail + LoadLinked(&tail) 

32 currTop ¢ top 

33 if currTop < currTail 

u return null /* 双 端 队列 为 空 */ 
3 val + deque|currTail] 

% if StoreConditionally(&tail, currTail+1) 


37 return val /* 在 设置 tail 的 竞争 中 胜出 ， 成 功 获取 一 个 工作 单元 */ 
3 /* 与 其 他 窃取 线程 产生 竞争 ， 或 者 pop 操作 已 导致 双 端 队列 为 空 */ 
39 /* 如 果 工 作 窍 取 并 非 必 须 ， 则 此 处 可 以 返回 失败 而 非 继续 循环 */ 

13.9 事务 内 存 


在 介绍 事务 内 存 (transactional memory) 与 垃圾 回收 之 间 的 关系 之 前 ， 我 们 有 必要 先 介 
绍 事务 内 存 。 


13.9.1 何谓 事务 内 存 


所 谓 事务 (transaction)， 是 指 一 组 读 写 操作 集合 必须 “看 起 来 ”原子 化 地 执行 ， 从 
表现 形式 来 看 ,组 成 事务 的 读 写 操作 之 间 不 应 当 穿 插 其 他 读 写 操作 。roadaLinkea/ 
StoreConditionally 实现 了 针对 单个 字 的 事务 语义 ， 但 此 处 我 们 所 关注 的 是 针对 多 个 独立 字 
的 事务 操作 。 合 理 的 事务 机 制 一 般 包 括 如 下 几 个 单元 : 

e BH WI (start). 

o 当前 事务 中 的 读 (read) 操作 。 

o 当前 事务 中 的 写 (write) 操作 。 

e 事务 的 结束 (end ) 。 

事务 的 结束 通常 称 为 (尝试 ) 提交 (commit)。 如 果 成 功 ， 则 事务 生效 ， 和 否则 事务 的 所 有 
写 操作 都 将 被 抛弃 ， 此 时 软件 可 以 进行 重 试 ， 也 可 采取 其 他 一 些 操作 。 因 此 事务 可 以 “投机 
性 ”( speculatively) 地 执行 。 事务 的 结束 必须 是 显 式 的 ， 只 有 这 样 投 机 操作 才 会 有 定论 ， 事 
务 才 可 能 被 受理 ， 写 操作 才 可 能 生效 或 被 拒绝 ， 软 件 才能 据 此 进行 重 试 或 者 采取 其 他 操作 。 

数据 库 领 域 中 的 事务 必须 满足 ACID 要 求 ， 类 似 地 ， 事 务 内 存 也 必须 满足 如 下 要 求 : 

o 原子 性 (atomicity): 事务 的 全 部 操作 要 么 全 部 成 功 ， 要 么 就 像 没 有 发 生 一 样 。 

e 一 致 性 (consistency): 事务 的 执行 应 当 看 起 来 是 在 一 个 瞬间 完成 的 。 

o 隔离 性 (isolation): 任何 其 他 线程 都 无 法 感知 到 事务 的 中 间 状 态 ， 而 只 能 感知 到 事务 

执行 之 前 和 执行 之 后 的 状态 。 

持久 性 〈durability)， 即 数据 库 中 事务 的 最 后 一 个 重要 特征 ， 它 不 允许 成 功 执行 的 事务 
BEER (或 者 要 保证 极 高 的 可 靠 性 )， 但 这 一 要 求 并 不 适用 于 事务 内 存 。 

事务 执行 过 程 中 真正 的 读 写 操作 可 能 会 散布 在 多 个 时 间 点 ， 因 而 如 果 多 个 事务 在 执行 过 
程 中 访问 相同 的 内 存 地 址 ， 则 它们 的 读 写 操作 之 间 可 能 会 产生 干扰 。 例 如 ,对 于 A 和 B 两 
个 事务 ， 如 果 事 务 A 在 写 某 个 值 的 同时 ,事务 B 正在 读 取 或 者 修改 该 值 ， 则 会 产生 冲突 。 
存在 冲突 的 事务 必须 遵从 一 定 的 顺序 。 某 些 情况 下 ， 我 们 不 可 能 令 事 务 中 的 读 写 操作 在 事务 
提交 成 功 之 前 得 到 真正 执行 。 例 如 ， 如 果 事 务 A 和 了 B 同时 读 取 变 量 x， 然 后 同时 尝试 修改 
该 变量 ， 则 根据 事务 的 语义 ， 两 个 事务 不 可 能 都 执行 成 功 。 在 这 种 情况 下 ， 至 少 一 个 事务 需 
要 中 止 (abort)， 并 确保 该 变量 的 状态 与 被 中 止 的 事务 根本 没有 发 生 时 的 状态 一 致 。 一 般 情 
况 下 ， 软 件 会 发 起 重 试 ， 且 重 试 通常 会 对 事务 的 执行 顺序 进行 强制 要 求 。 
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事务 内 存 可 以 基于 硬件 实现 ， 也 可 基于 软件 实现 ， 还 可 使 用 软 硬 件 混合 方式 实现 。 任 何 
一 种 实现 策略 都 必须 提供 以 下 几 种 操作 : 原子 化 写 操作 、 冲 突 检测 、 可 见 性 控制 (visibility 
control)( 以 支持 隔离 性 )。 可 见 性 控制 可 以 作为 冲突 检测 的 一 部 分 。 

写 操作 的 原子 化 可 以 通过 缓冲 buffer) 或 者 撤销 (undo) 的 策略 实现 。 缓 冲 策略 会 先 在 
内 存 中 的 某 临 时 位 置 执 行 写 操 作 ， 并 且 仅 在 事务 提交 时 才 将 最 终 的 值 写 入 指定 位 置 。 硬 件 组 
冲 策略 可 以 通过 增加 缓存 或 者 其 他 额外 缓冲 区 的 方式 实现 ， 而 软件 缓冲 则 可 能 会 借助 于 与 待 
修改 值 同 级 别 的 字 / 域 /对 象 。 引 入 缓冲 之 后 ， 事 务 的 提交 要 么 会 将 缓冲 的 写 操作 生效 ， 要 
么 直接 将 缓冲 区 抛弃 。 大 多 数 情 况 下 ， 事 务 的 成 功 提交 通常 需要 较 多 工作 ， 相 比 之 下 中 止 事 
务 的 开销 相对 较 小 。 基 于 撤销 的 策略 则 与 缓冲 策略 截然 不 同 ， 其 事务 执行 过 程 中 的 写 操 作 会 
直接 修改 数据 ， 但 每 个 写 操作 会 在 数据 修改 之 前 将 原 有 的 值 记 录 到 撤销 日 志 (undo log) 中 。 
如 果 事 务 最 终 成 功 提交 ， 则 可 以 直接 抛弃 执行 过 程 中 的 撤销 日 志 ， 而 一 旦 事务 被 中 止 ， 则 必 
须 使 用 撤销 日 志 来 恢复 被 修改 的 值 。 与 缓冲 策略 类 似 ， 撤 销 日 志 也 可 使 用 硬件 、 软 件 、 软 硬 
件 混合 的 方式 实现 。 

冲突 检测 既 可 以 是 积极 (eagerly) 的 ， 也 可 懒惰 ( lazily) 的 。 积 极 的 冲突 检测 策略 会 在 
每 次 内 存 访问 之 前 检测 该 操作 是 否 会 与 当前 正在 执行 的 事务 产生 冲突 ， 如 果 发 现 两 个 事务 可 
能 发 生 冲 突 ， 那 么 在 必要 情况 下 可 以 将 其 中 的 一 个 中 止 。 懒 惰 冲 突 检 测 策略 则 只 有 在 尝试 提 
交 事 务 时 才 进 行 冲突 检测 。 某 些 冲突 检测 机 制 还 允许 事务 在 执行 过 程 中 检测 当前 是 否 有 冲突 
发 生 。 软 件 实现 策略 可 以 设置 对 象 头 部 的 旗 标 ， 或 者 使 用 额外 的 表 来 记录 对 象 的 访问 ， 事 务 
性 访问 在 冲突 检测 过 程 中 会 对 其 进行 检测 。 类 伏地 ， 硬 件 实现 策略 则 通常 会 将 旗 标 与 高 速 绥 
存 行 或 者 被 修改 的 字 相 关联 。 

为 简化 表述 ， 我 们 将 介绍 一 种 简单 的 基于 硬件 的 事务 内 存 接口 ， 该 接口 是 由 如 下 几 种 原 
语 构成 的 。 此 处 的 描述 方式 与 Herlihy 和 Moss [1993] 文献 中 的 相同 。 

è Tstart () 表示 事务 的 开始 。 

e TCommit() 表示 事务 尝试 进行 提交 ， 该 原 语 返回 一 个 布尔 值 ， 如 果 为 真 ， 则 表示 事务 
提交 成 功 。 
TAbort () 表示 事务 尝试 中 止 执行 ， 由 程序 主动 发 起 中 止 请 求 在 某 些 情况 下 比较 有 用 。 
TLoad (addr) 表示 对 指定 地 址 发 起 事务 性 的 加 载 操作 。 该 操作 会 将 目标 地 址 添加 到 事 
务 的 读 集合 中 ， 同 时 返回 该 地 址 的 当前 值 。 
TStore (addr, value) 表示 事务 性 地 将 指定 的 值 写 入 目标 地 址 。 该 操作 会 将 目标 地 址 
添加 到 事务 的 写 集 合 中 ， 并 事务 性 的 执行 写 操作 ， 即 : 如 果 事 务 被 中 止 ， 则 该 写 操 
作 不 会 产生 任何 作用 。 

许多 并 发 数据 结构 可 以 基于 上 述 几 种 原 语 进 行 简化 ， 例 如 算法 13.39 便 是 对 算法 13.30 
的 简化 。 引 入 事务 内 存 之 后 ， 由 于 我 们 可 以 原子 化 地 对 两 个 不 同 地 址 的 值 进行 更 新 ， 因 而 
add 函数 可 以 得 到 简化 ; 类 似 地 ， 由 于 可 以 原子 性 地 读 取 两 个 甚至 三 个 不 同 的 值 ，remove 操 
作 也 可 得 到 简化 。 更 重要 的 是 ， 我 们 可 以 更 加 清晰 地 判断 出 事务 的 实现 是 否 正确 ， 而 如 果 要 
对 简化 之 前 的 算法 进行 正确 性 分 析 ， 则 必须 对 读 写 操作 的 执行 顺序 进行 更 加 谨慎 的 论证 。 


算法 13.39 ”基于 事务 内 存 的 单 链 表 并 发 队列 


1 shared head + new Node(value: dontCare, next: null) 
2 shared tail + head 


3 
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node ¢ new Node(value: val, next: null) 


5 

6 loop 

7 currTail + TLoad(&tail) 

8 TStore(&currTail.next, node) 
9 TStore(&tail, node) 

10 if TCommit() 

n return 


3 remove(): 


14 loop 

5 currHead + TLoad(&head) 

6 next + TLoad(&currHead.next) 

17 if next = null 

18 if TCommit() /* 提交 操作 可 以 确保 执行 过 程 中 变量 的 一 致 性 */ 
19 return EMPTY /* 队列 为 空 */ 

2» continue 


2 /* 队列 非 空 ， 举 试 移 除 其 首 节点 */ 
2 val + TLoad(&next.value) 
u TStore(&head, next) 

25 if TCommit() 

26 return val 

27 


/* 移 除 失 败 ， 进 行 重 试 */ 


13.9.2 ”使 用 事务 内 存 助力 垃圾 回收 器 的 实现 


事务 内 存 与 垃圾 回收 之 间 的 关系 主要 表现 在 两 个 方面 。 一 方面 ， 事务 内 存 可 以 作为 垃圾 
回收 器 的 实现 技术 之 一 [McGachey 等 ，2008] ; 男 一 方面 ， 事务 可 能 会 是 托管 语言 的 基本 语 
义 之 一 ， 回 收 器 必须 能 够 正确 地 支持 这 一 语义 。 本 小 节 我 们 将 介绍 事务 内 存在 垃圾 回收 器 实 
现 过 程 中 的 应 用 ， 而 下 一 小 节 我 们 将 介绍 垃圾 回收 器 对 托管 语言 中 事务 语义 的 支持 。 

址 良 置 疑 ， 事务 内 存 可 以 简化 并 发 数据 结构 的 实现 ， 因 而 其 可 以 简化 并 行 /并 发 分 配 / 
回收 的 实现 ， 特 别 是 并 发 分 配器 、 赋 值 器 、 回 收 吉 、 读 写 屏 障 以 及 并 发 回收 器 数据 结构 的 实 
现 。 目 前 事务 内 存 尚 不 存在 统一 的 硬件 实现 标准 ， 同 时 在 软件 方面 也 存在 多 种 不 同 的 实现 方 
式 ， 因 而 我 们 很 难 指 定 某 种 标准 并 进行 描述 ， 但 不 论 如 何 ， 在 自动 内 存 管理 中 使 用 事务 内 存 
需要 注意 以 下 几 个 方面 : 

o 软件 事务 内 存 (software transactional memory) 通常 会 引入 显著 开销 ， 即 使 在 经 过 优 
化 之 后 。 如 果 要 求 自动 内 存 管 理 系统 中 大 部 分 组 件 的 运行 时 开销 都 足够 小 ， 则 软件 
事务 内 存 的 应 用 场景 可 能 会 受到 相当 大 的 限制 。 另 外 ， 访 问 频率 不 高 的 数据 结构 也 
可 以 使 用 锁 来 降低 实现 复杂 度 。 
硬件 事务 内 存 ( hardware transactional memory) 通常 会 包含 一 些 与 硬件 相关 的 特殊 要 
求 。 例 如 ， 冲 突 检 测 、 访 问 与 更 新 均 必 须 以 物理 单元 为 最 小 粒度 来 执行 〈 例 如 高 速 组 
存 行 )。 由 于 硬件 容量 通常 存在 限制 (例如 组 相关 高 速 缓存 中 每 个 缓存 集合 所 包含 的 
缓存 行 数量 )， 所 以 某 些 硬 件 事务 内 存 的 实现 可 能 会 对 事务 中 所 涉及 的 数据 有 总 量 限 
制 。 男 外 ， 开 发 者 所 设计 的 变量 布局 与 其 在 高 速 缓存 行 上 的 布局 可 能 存在 差异 ， 因 
而 开发 者 还 需 额外 注意 一 些 底 层 的 实现 细节 。 
事务 内 存在 大 多 数 情况 下 可 以 轻易 满足 无 锁 要 求 。 即 使 事务 内 存 的 底层 提交 机 制 满 
足 无 等 待 要 求 ， 事 务 之 间 依 然 可 能 发 生 冲 突 ， 进 而 导致 事务 的 中 止 或 者 重 试 。 无 等 
待 数据 结构 的 开发 依然 十 分 复杂 ， 且 需要 注意 许多 细节 。 
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e 事务 内 存 需 要 开发 者 仔细 进行 性 能 调整 。 需 要 关注 的 内 容 之 一 是 多 个 事务 访问 相同 

数据 结构 时 的 固有 冲突 。 例 如 对 于 并 发 栈 而 言 ， 其 瓶颈 在 于 不 同 线程 更 新 栈 项 指针 

的 操作 ， 但 事务 内 存 并 不 能 解决 这 一 问题 。 另 外 ， 对 事务 中 的 读 写 操作 进行 任何 方 

式 的 调整 (例如 将 其 移动 到 靠近 事务 开始 或 者 结束 的 位 置 ) 都 会 显著 影响 冲突 发 生 的 
概率 ， 以 及 事务 的 重 试 开销 。 

综 上 所 述 ， 硬 件 事务 内 存 设 施 十 分 有 用 。 例 如 基于 Advanced Micro Devices 设计 的 先进 

[271] 的 同步 设备 [Christie 等 ，2010]， 其 接口 与 我 们 上 一 小 节 所 描述 的 接口 十 分 类 似 ， 该 方案 支 

持 在 一 个 事务 中 对 至 少 四 个 完全 独立 的 高 速 缓存 行进 行 读 写 操作 ， 这 足以 简化 本 章 绝 大 部 分 

并 发 数据 结构 的 实现 。 但 是 ， 基 于 硬件 事务 内 存 的 简化 算法 是 否 会 带 来 性 能 上 的 改进 ， 目 

前 仍 尚 无 定论 ， 但 弓 庸 置疑 的 是 ， 基 于 事务 内 存 的 简单 模型 可 以 减少 错误 ， 并 且 降 低 开 发 

难度 。 


13.9.3 垃圾 回收 机 制 对 事务 内 存 的 支持 


接 下 来 ,我们 将 探讨 事务 内 存 与 垃圾 回收 的 另 一 种 关系 ， 即 编程 语言 如 何 同时 支持 自动 
内 存 管 理 以 及 某 些 内 建 的 事务 内 存 语义 [Harris and Fraser, 2003 ; Wele 等 ，2004，2005]。 
此 处 的 核心 问题 在 于 ， 垃 圾 回收 和 事务 内 存 这 两 种 机 制 的 执行 可 能 会 相互 干扰 ， 特 别 是 在 并 
发 程度 很 高 的 场景 中 。 

可 能 存在 的 一 种 干扰 形态 是 : 内 存 管理 器 可 能 导致 事务 产生 冲突 ， 进 而 增 大 事务 的 重 试 
开销 ， 从 而 影响 到 赋值 器 或 者 回收 器 的 正常 执行 ,或 者 同时 影响 两 者 。 例 如 ， 如 果 赋 值 器 
尝试 发 起 一 个 执行 时 间 较 长 的 事务 ， 而 其 执行 过 程 又 与 回收 器 产生 冲突 ， 则 赋值 器 事务 可 能 
会 持续 性 地 被 回收 器 中 止 ， 或 者 回收 器 可 能 会 被 阻塞 较 长 的 一 段 时 间 。 如 果 事 务 本 身 使 用 硬 
件 事 务 内 存 来 实现 ， 则 情况 将 更 加 复杂 。 例 如 ， 并 发 回收 器 针对 某 一 对 象 所 进行 的 标记 、 转 
发 、 复 制 等 操作 均 有 可 能 中 止 赋 值 器 事务 的 执行 ， 而 原因 仅仅 是 回收 器 与 执行 中 的 事务 访问 
了 相同 的 内 存 一 一 即使 语言 的 实现 者 已 经 通过 精心 设计 来 确保 它们 之 间 不 会 相互 干扰 ， 但 这 
一 问题 仍 不 能 避免 。 由 于 硬件 不 可 能 意识 到 其 所 操纵 的 数据 为 托管 数据 ， 所 以 硬件 事务 内 存 
无 法 解决 这 一 问题 ， 相 比 之 下 ， 针 对 特定 语言 设计 的 软件 事务 内 存 则 可 能 会 将 对 象 头 部 与 其 
数据 域 区 分 对 待 。 

事务 的 执行 还 可 能 受到 内 存 回收 语义 的 影响 。 例 如 ， 假 设 某 一 事务 内 存 系统 使 用 原 地 更 
新 的 实现 策略 ， 同 时 使 用 回 滚 日 志 来 记录 被 修改 数据 原 有 的 值 ， 并 据 此 来 支持 事务 的 正常 
中 止 。 这 一 场景 下 ， 可 能 会 出 现 某 一 对 象 仅 从 回 滚 日 志 可 达 的 情况 ， 此 时 如 果 事 务 处 于 未 决 
状态 ， 则 该 对 象 不 应 当 被 回收 器 判定 为 不 可 达 。 因 此 ， 回 收 器 还 需要 把 事务 日 志 当 作 根 集合 
的 一 部 分 来 处 理 。 另 外 ， 对 于 复制 式 回收 算法 ， 回 收 器 不 仅 需要 对 回 滚 日 志 中 的 指针 进行 追 
踪 ， 而 且 还 必须 将 其 更 新 到 其 目标 对 象 的 新 地 址 。 

事务 性 语言 中 的 内 存 分 配 是 一 个 值得 关注 的 问题 。 如 果 事 务 在 执行 过 程 中 存在 对 象 分 
配 ， 但 事务 最 终 被 中 止 ， 则 从 逻辑 上 讲 ， 所 分 配 的 对 象 应 当 以 某 种 方式 回收 。 但 是 ， 一 旦 分 
配 操作 会 涉及 全 局 共享 数据 结构 ， 如 果 我 们 要 在 事务 中 止 时 精确 恢复 到 事务 执行 之 前 的 状 
态 ， 则 意味 着 事务 需要 对 空闲 链表 或 者 阶 跃 指针 加 锁 ， 直 到 事务 提交 或 者 中 止 ， 这 显然 是 无 
法 接受 的 。 因 此 ， 分 配 过 程 的 回 深 应 当 更 加 偏向 于 逻辑 上 而 非 物 理 上 的 操作 。 例 如 对 于 基于 
空闲 链表 的 系统 ， 事 务 在 被 中 止 时 应 当 将 其 所 分 配 的 对 象 释放 ， 这 一 分 配 释放 过 程 可 能 会 导 
致 空闲 链表 中 的 节点 的 位 置 发 生变 化 ， 也 可 能 导致 内 存 块 分 裂 ( 且 无 法 合并 )。 编 程 语言 也 
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有 可 能 允许 事务 在 执行 过 程 中 发 起 一 些 非 事 务 性 的 操作 ， 这 些 操作 所 分 配 的 对 象 可 能 会 暴露 
给 其 他 线程 ， 因 而 它们 不 应 当 随 着 事务 的 中 止 而 释放 ， 同 时 这 些 对 象 初始 化 过 程 中 所 执行 的 
操作 (例如 设置 对 象 头 域 ) 也 不 应 当 回 滚 。 诸 如 Open Nesting[Ni 等 ，2007] 等 概念 可 能 会 对 
这 一 场景 的 处 理 有 所 帮助 ， 一 个 通用 的 解决 方案 是 将 事务 性 赋值 器 操作 中 的 所 有 原子 化 内 存 
管理 操作 都 当 作 open nested 操作 。 

最 后 ， 某 些 事务 内 存 系统 会 在 执行 过 程 中 产生 大 量 的 内 存 分 配 操作 ， 进 而 增加 分 配器 与 
回收 器 的 负担 。 特 别 是 在 某 些 软件 事务 内 存 的 实现 中 ， 事 务 在 修改 某 一 对 象 之 前 必须 先 创建 
该 对 象 的 副本 ， 并 基于 副本 进行 修改 ， 同 时 只 有 在 事务 成 功 提 交 的 情况 下 才 使 用 副本 取代 原 
有 对 象 。 在 这 一 情况 下 ， 分 配器 在 语义 上 并 无 更 多 需要 处 理 的 内 容 ， 但 其 负载 可 能 会 发 生变 
化 。 事 务 内 存 和 垃圾 回收 之 间 的 一 个 共同 点 在 于 ， 它 们 都 需要 高 效 的 、 满 足 合适 前 进 保障 要 
求 的 并 发 数据 结构 。 例 如 ， 事 务 的 提交 便 是 一 致 性 算法 的 一 个 应 用 场景 ， 理 想 情 况 下 其 应 当 
满足 无 等 待 要 求 。 


13.10 ”需要 考虑 的 问题 


我 们 需要 首先 明确 的 是 ， 正 确 地 实现 并 发 算法 非常 困难 ! 这 一 结论 并 不 夸张 ， 因 此 除非 
万 不 得 已 ， 最 好 避免 使 用 并 发 算法 。 但 是 ， 在 现代 硬件 条 件 下 ， 并 发 编程 确实 变 得 越 来 越 必 
要 ， 因 而 我 们 才 会 专门 以 一 章 的 篇 幅 来 对 其 进行 描述 。 

系统 需要 支持 哪些 平台 ? 目标 平台 的 内 存 一 致 性 特征 如 何 ? 其 提供 哪些 内 存 屏 障 与 同步 
原 语 ? 我 们 应 当 尽 量 降低 算法 对 执行 顺序 的 依赖 ， 但 在 某 些 平台 上 ， 我 们 仍 可 能 需要 在 算法 
中 插入 屏障 或 者 其 他 原 语 ， 例 如 13.8 节 中 的 算法 13.34。 哪 些 执 行 顺序 需要 引入 屏障 ? 

平台 支持 哪些 原子 更 新 原 语 ? 尽管 LoadLinked/storeconditionally 原 语 便于 使 用 且 更 
加 高 效 ， 但 大 多 数 流行 系统 仅 支 持 compareanaswap 或 者 等 价 原 语 ， 后 者 可 能 会 遇 到 ABA 问 
题 ， 但 该 问题 也 可 通过 某 种 方式 来 避免 ， 如 算法 13.27 所 示 。 或 许 在 不 久 的 将 来 ， 事 务 内 存 
将 逐渐 实用 化 。 

算法 需要 达到 何 种 级 别 的 前 进 保障 要 求 ” 较 弱 的 前 进 保障 更 容易 实现 ， 也 更 易于 推导 。 
对 于 访问 量 较 低 的 数据 结构 ， 直 接 进 行 加 锁 可 能 会 更 加 合适 ， 因 为 与 具有 更 强 前 进 保障 级 别 
的 无 锁 算 法 相 比 ， 加 锁 不 仅 容易 实现 ， 而 且 更 容易 正确 地 实现 。 另 外 ， 即 使 在 某 些 已 发 布 
的 、 绝 大 多 数 场景 满足 无 等 待 要 求 的 系统 中 ， 某 些 极端 情况 的 处 理 仍 会 使 用 更 加 简单 的 实现 
技术 ， 将 这 些 非 关键 场景 无 等 待 化 并 不 具有 太 大 价值 。 

系统 是 需要 实现 真正 的 并 发 ( 即 允 许多 个 线程 在 硬件 上 同时 执行 )， 还 是 仅 需要 达到 多 
程序 (multiprogrammed) 级 别 ? 多 程序 并 发 算法 的 实现 通常 会 更 加 容易 。 

在 后 续 章 节 中 ， 我 们 将 以 本 章 所 介绍 的 内 容 为 基础 来 描述 并 行 、 增 量 、 并 发 以 及 实时 回 
收 器 。 
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现代 硬件 体系 架构 的 发 展 趋势 是 处 理 器 以 及 处 理 器 核心 数量 将 越 来 越 多 。Sutter[2005] 
曾经 指出 ， 使 用 传统 方法 来 提升 性 能 的 “免费 午餐 ”已 经 吃 尽 。 能 耗 以 及 散热 问题 导致 硬件 
架构 无 法 进一步 提升 时 钟 频率 (时钟 频率 的 提升 与 其 功 耗 的 增长 为 三 次 方 关 系 )， 因 而 硬件 设 
计 者 转向 在 单个 芯片 上 集成 多 个 处 理 器 核心 (核心 数量 的 增长 与 其 能 耗 的 增长 呈 线 性 关系 )。 
目前 并 无 证 据 表明 处 理 器 的 这 一 发 展 趋势 会 发 生变 化 ， 因 而 在 应 用 程序 的 设计 与 实现 中 ， 充 
分 利用 硬件 的 并 行 能 力 来 提升 性 能 将 变 得 越 来 越 重要 。 而 在 另 一 方面 ， 异 构 (heterogeneous) 
与 非 一 致 (non-uniform) 内 存 架 构 只 会 增加 开发 者 的 负担 ， 因 为 开发 者 需要 仔细 考虑 底层 平 
台 的 各 种 特殊 性 质 。 

到 目前 为 止 ， 我 们 所 介绍 的 算法 均 假 定 存在 多 个 赋值 器 线程 ， 但 仅 存在 一 个 回收 器 线 
程 ， 对 于 现代 多 核 或 多 处 理 器 而 言 ， 这 将 是 极 大 的 资源 浪费 。 本 章 我 们 将 考虑 如 何 将 垃圾 
回收 并 行 化 ， 但 我 们 依然 假设 在 垃圾 回收 处 理 过 程 中 ， 所 有 赋值 器 线程 均 被 挂 起 ， 同 时 
只 有 在 垃圾 回收 完成 之 后 ， 赋 值 器 线程 才能 继续 执行 。 一 些 早期 的 论文 可 能 会 将 “并 发 ” 
(concurrent), “347” (parallel), “BAY” (on-the-fly), “SCHL” (real-time) 这 几 个 术语 等 价 或 
者 混淆 ， 但 在 本 书 中 ， 我们 将 更 加 注重 这 些 术语 的 前 后 一 致 性 ， 并 与 当前 业界 的 普遍 用 法 保 
持 一 致 。 

图 14.1a 以 水 平 条 带 来 表示 单个 处 理 器 的 执行 ， 时 间 的 前 进 方 向 为 从 左 到 右 ， 其 中 白色 部 
分 表示 赋值 器 的 执行 ， 其 他 颜色 表示 回收 器 的 执行 。 灰 色 方 框 表示 一 次 垃圾 回收 操作 ， 而 黑 
色 方 框 表 示 下 一 次 回收 操作 。 在 多 处 理 时 间 


器 环境 下 ， 挂 起 赋值 器 意味 着 所 有 赋 
值 器 线程 将 陷 人 停顿 。 图 14.1b 展示 了 CC 





我 们 到 目前 为 止 所 描述 过 的 一 般 回 收 nn eld 

情形 ， 即 回收 器 将 多 个 赋值 器 线程 挂 “ 请 一 一 ara nea as, 
起 ， 并 使 用 一 个 处 理 器 来 完成 垃圾 回收 = m pll 
工作 ， 此 时 硬件 资源 显然 得 不 到 充分 利 b) 多 赋值 器 线程 、 单 回收 线程 的 万 物 静 止 式 回 收 

用 。 考 庸 置疑 ， 使 用 多 处 理 器 共同 完成 一 


垃圾 回收 工作 将 减少 停顿 时 间 (赋值 器 “” 广 - 一 十 


a 
线程 同样 需要 全 部 挂 起 )， 如 图 14.1c 所 “证 一 了 Co) Co 


示 ， 这 便 是 本 章 将 要 介绍 的 并 行 回收 c) 并 行 万 物 静止 式 回收 

(parallel collection ) 。 图 14.1 万 物 静止 式 垃圾 回收 。 每 个 条 带 表 示 一 个 处 理 器 
对 于 所 有 需要 将 赋值 器 线程 全 部 的 执行 过 程 。 不 同 颜色 GEA) 的 区 域 表 示 不 

挂 起 ， 直 到 回收 结束 的 回收 策略 ， 我 同 的 回收 周期 


们 将 其 称 为 万 物 静 止 式 回收 (stop-the-world collection ) 。 我 们 曾经 提 到 ， 降 低 回收 停顿 时 间 
的 策略 还 包括 允许 赋值 器 和 回收 器 交替 执行 的 增 量 回收 (incremental collection), VAR FIT 
赋值 器 线程 和 回收 器 线程 同时 执行 的 并 发 回收 (concurrent collection)， 我 们 将 在 稍 后 的 章 
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节 中 描述 这 些 回收 策略 。 本 章 将 专注 于 并 行 追 踪 式 垃圾 回收 算法 。 第 5 章 曾经 提 到 ， 引 用 技 
术 算 法 天 然 就 具有 并 行 和 并 发 特性 ， 我 们 将 在 第 18 章 讨 论 如 何 提升 多 处 理 器 环境 下 引用 计 
数 算法 的 性 能 。 本 章 将 讨论 如 何 将 并 行 技术 应 用 于 追踪 式 垃圾 回收 器 的 4 个 主要 组 成 部 分 ， 
即 : 标记 、 清 扫 、 复 制 、 整 理 。 


14.1 是 否 有 足够 多 的 工作 可 以 并 行 


并 行 回收 的 目的 在 于 充分 利用 硬件 资源 来 降低 垃圾 回收 的 时 间 开 销 。 对 于 万 物 静 止 式 回 
收 而 言 ， 并 行 回收 可 以 降低 停顿 时 间 ; 而 对 于 增 量 回收 或 者 并 发 回收 而 言 ， 并 行 回收 有 助 于 
缩短 一 个 回收 周期 的 时 间 。 对 于 任何 并 行 问 题 ， 首 先 必 须 考虑 是 否 有 足够 多 的 工作 值得 使 用 
并 行 方式 。 并 行 回收 不 可 避免 地 会 在 各 回收 线程 之 间 引 入 一 些 同步 操作 ， 从 而 增 大 了 回收 开 
销 。 某 些 算法 可 能 需要 使 用 锁 ， 而 其 他 算法 可 能 需要 使 用 诸如 Compareandswap 的 原子 操作 原 
语 ， 并 需要 对 辅助 数据 结构 进行 精心 设计 。 但 不 论 将 同步 机 制 优化 到 何 种 程度 ， 它 们 都 不 可 
能 达到 单 处 理 器 解决 方案 的 执行 效率 。 因 此 并 行 回收 首先 需要 考虑 的 问题 便 是 : 是 否 有 足够 多 
的 垃圾 回收 工作 可 以 并 行 ， 且 并 行 解决 方案 所 带 来 的 收益 是 否 可 以 超出 其 所 引入 的 额外 开销 。 

某 些 垃圾 回收 问题 的 出 现 可 能 不 利于 使 用 并 行 回 收 。 例 如 当 标记 = 清扫 回收 器 对 链表 进 
行 追 中 时， 链表 固有 的 顺序 特征 决定 了 在 追踪 阶段 的 每 一 步 中 ， 标 记 栈 中 都 仅 会 包含 一 个 元 
素 ， 即 链表 中 下 一 个 将 被 追踪 的 节点 。 在 这 一 场景 下 ， 只 有 一 个 回收 线程 处 于 工作 状态 ， 其 
他 线程 均 处 于 等 待 状态 。Siebert [2008] 给 出 了 在 包含 p 个 处 理 器 的 系统 中 ， 由 于 缺乏 工作 
而 处 于 等 待 状态 的 标记 线程 数量 n 与 任意 可 达 对 象 o 的 最 大 深度 之 间 的 关系 : 


n< (p—-1)- max depth(o) 
o E reachable 


该 公式 假设 标记 阶段 所 有 操作 花费 的 时 间 均 相同 ， 但 这 往往 是 不 切实 际 的 ， 扫 描 所 需 的 
时 间 往 往 取决 于 被 扫描 对 象 的 类 别 (kind)。 尽 管 在 大 多 数 编程 语言 中 ， 绝 大 多 数 对 象 通常 
都 相对 较 小 ， 即 它们 仅 包含 数量 较 少 的 指针 ， 但 数组 却 可 能 会 很 大 ， 且 通常 会 比 一 般 对 象 大 
得 多 (除非 使 用 串联 子 数 组 的 方式 实现 数组 ， 即 数组 是 由 一 系列 固定 大 小 的 子 数组 构成 ) 。 

幸运 的 是 ， 应 用 程序 所 使 用 的 数据 结构 往往 都 不 会 是 单 链 表 ， 而 是 包含 多 种 不 同 的 数据 
结构 。 例 如 ， 当 对 具有 分 支 结构 的 数据 结构 (例如 树 形 结构 ) 进行 追踪 时 ， 在 触 达 叶 节 点 之 
前 ， 追 踪 阶 段 的 每 一 步 所 产生 的 工作 量 都 会 比 其 所 处 理 的 工作 要 多 。 另 外 ， 回 收 器 通常 还 可 
以 从 多 个 位 置 发 起 追踪 过 程 ， 包 括 全 局 变量 、 赋 值 器 线程 栈 、 分 代 回 收 器 与 并 发 回收 器 中 的 
记忆 集 等 。Sibert 对 小 型 Java 基准 程序 进行 研究 发 现 ， 不 仅 许多 应 用 程序 中 可 达 对 象 的 最 大 
深度 都 非常 浅 ， 而 且 更 重要 的 是 ， 可 达 对 象 的 最 大 深度 与 可 达 对 象 数量 之 间 的 比值 往往 都 非 
B/N, BDA RE 4%， 这 表示 并 行 追 踪 可 以 达到 很 高 的 并 行程 度 : 所 有 基准 程序 在 处 理 器 数量 
达到 32 个 时 均 表 现 良好 ( 某 些 场景 下 甚至 可 以 支持 更 多 处 理 器 )。 

追踪 过 程 是 整个 垃圾 回收 过 程 中 最 难以 并 行 化 的 部 分 。 对 清扫 过 程 或 者 整理 式 回收 中 修 
正 引 用 等 过 程 的 并 行 化 则 要 直接 得 多 ， 至 少 在 原则 上 如 此 。 一 种 显而易见 的 策略 是 将 堆 划分 
为 多 个 不 重 琶 的 区 域 ， 每 个 处 理 器 负责 一 个 区 域 的 处 理 ， 具体 的 实现 细节 决定 了 并 行 处 理 算 
法 的 成 败 。 


14.2 ”负载 均衡 
并 行 解决 方案 应 当 满足 的 第 二 个 要 求 是 : 回收 工作 在 可 用 硬件 资源 上 的 分 配方 式 应 当 尽 


274 
2 
275 


244 # 14% 


量 减 少 对 同步 操作 的 依赖 ， 从 而 尽量 将 所 有 处 理 器 保持 在 忙碌 状态 。 缺 乏 负载 均衡 的 简单 并 
行 算法 很 可 能 无 法 提升 多 处 理 器 环境 下 的 回收 速度 [Endo 等 ，1997]。 但 不 幸 的 是 ， 负 载 均 
衡 化 和 同步 开销 最 小 化 这 两 个 目标 通常 存在 冲突 。 静 态 负载 均衡 ( static load balancing) 策 
略 的 工作 分 配 在 处 理 过 程 开 始 之 前 就 已 经 确定 ， 即 在 内 存 管理 器 启动 时 ， 或 者 至 少 是 在 第 一 
次 垃圾 回收 之 前 。 该 策略 中 ， 各 回收 线程 只 需要 在 回收 工作 何 时 完成 这 一 问题 上 达成 一 致 即 
可 ， 除 此 之 外 ， 它 们 之 间 不 需要 再 引入 任何 同步 。 但 是 ， 静 态 负 和 载 均 衡 策略 通常 无 法 确保 各 
线程 的 工作 分 配 均 匀 。 例 如 ， 工 作 在 入 处 理 器 环境 下 、 使 用 大 块 连续 内 存 的 并 行 标记 一 整 
理 策略 可 能 会 将 堆 空 间 划 分 为 个 区 域 ， 每 个 处 理 器 负责 一 个 区 域内 的 引用 修正 工作 。 该 
策略 的 实现 相对 简单 ， 但 每 个 处 理 器 的 回收 工作 量 却 取 决 于 它们 所 负责 区 域内 的 对 象 数 量 ， 
以 及 这 些 对 象 所 包含 引用 的 数量 。 除 非 所 有 区 域 的 对 象 特征 大 体 一 致 ， 否 则 某 些 处 理 器 的 工 
作 量 必然 会 高 于 其 他 处 理 器 。 需 要 注意 的 是 ， 处 理 器 之 间 需 要 进行 平衡 的 不 仅仅 是 工作 量 ， 
对 其 他 资源 的 分 配 进 行 平衡 也 十 分 重要 。 在 Halstead [1984, 1985] 所 实现 的 Baker xt [1978] 
并 行 复制 回收 器 中 ， 每 个 处 理 器 都 拥有 专属 的 来 源 空 间 与 目标 空间 ， 但 不 幸 的 是 ,在 这 一 静 
态 组 织 方式 下 经 常会 出 现 某 一 处 理 器 耗 尽 其 目标 空间 而 其 他 处 理 器 的 目标 空间 却 存在 富余 的 
情况 。 

许多 回收 任务 需要 通过 动态 负载 均衡 ( dynamic load balancing) 策略 来 确保 工作 分 配 的 
近似 均衡 。 对 于 在 执行 之 前 可 以 预 估 出 工作 量 的 任务 ， 即 使 不 同 回收 周期 内 的 预 估 结 果 可 能 
存在 差异 ， 线 程 之 间 的 工作 划分 仍 可 以 较为 简单 地 实现 ， 同 时 各 并 行 回收 线程 在 后 续 执 行 过 
程 中 也 无 需 引 入 其 他 同步 。 例 如 ， 在 并 行 标记 一 整理 回收 器 的 整理 阶段 ，Flood 等 [2001] fk 
照 已 经 识别 出 的 存活 对 象 将 堆 空间 划分 为 N 个 区 域 ， 并 确保 每 个 区 域 中 存活 对 象 的 总 内 存 
量 近 似 相 等 ， 每 个 处 理 器 可 以 独立 对 一 个 区 域 进行 并 行 整 理 。 

但 是 在 更 多 情况 下 ， 我 们 通常 很 难 对 所 需 执行 的 工作 进行 事先 预 估 并 据 此 进行 划分 。 为 
此 更 加 一 般 化 的 解决 方案 是 将 所 需 执 行 的 工作 划分 为 比 回收 线程 (处理 器 ) 数量 更 多 的 子 任 
务 ， 同 时 驱使 线程 一 次 获取 一 个 子 任 务 来 执行 。 这 种 细 粒 度 划分 (over-partition) 策略 存在 
诸多 优势 : 较 小 的 子 任务 更 容易 适应 处 理 器 数量 不 同 的 硬件 平台 ， 从 而 提升 了 并 行 回 收 的 弹 
性 ; 如 果 某 一 子 任务 的 实际 处 理 时 间 比 预期 的 时 间 要 长 ， 则 剩余 工作 可 以 由 其 他 已 完成 较 小 
工作 任务 的 线程 承担 。 例 如 ，Flood 等 在 设置 转发 指针 之 前 会 以 对 象 为 单位 将 堆 划 分 成 M 个 
大 致 相等 的 区 域 ，M 通 常 是 回收 线程 数量 的 4 倍 。 每 个 线程 负责 一 个 区 域 的 处 理 ， 该 过 程 
同时 会 统计 存活 对 象 的 总 内 存量 ， 并 将 相 邻 未 标记 对 象 合并 成 单个 垃圾 内 存 块 。 需 要 注意 的 
是 ， 该 回收 器 会 在 不 同 的 回收 阶段 使 用 不 同 的 负载 均衡 策略 (我 们 将 在 稍 后 进行 更 加 详细 的 
介绍 )。 

我 们 将 本 章 后 续 部 分 将 要 介绍 的 每 种 算法 浓缩 为 3 个 主要 的 子 任务 ， 即 获取 工作 、 执 行 
工作 、 生 成 新 工作 。 我 们 假定 在 大 多 数 情 况 下 ， 每 个 回收 线程 均 依照 如 下 的 抽象 方式 执行 : 


while not terminated() 
acquireWork() 
performWork() 
generateWork() 
该 抽象 算法 中 ，acquirework 尝试 获取 一 个 或 者 多 个 工作 单元 ，performwork 执行 工作 
单元 ，generatework 将 performwork 在 执行 过 程 中 新 发 现 的 一 个 或 者 多 个 新 工作 单元 添加 到 
全 局 任务 池 中 ， 以 便 各 回收 线程 获取 。 
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14.3 同步 


可 能 会 有 读者 认为 ， 最 佳 的 负载 均衡 方式 是 将 回收 工作 划分 为 尽量 小 的 工作 单元 ， 例 如 
对 单个 对 象 进行 标记 。 如 此 细 粒 度 的 划分 方式 可 以 完美 平衡 各 处 理 器 之 间 的 负载 (因为 此 时 
任意 一 个 工作 单元 都 可 以 被 任意 一 个 申请 获取 任务 的 处 理 器 执行 )， 但 在 该 策略 下 处 理 器 之 
间 的 同步 开销 将 无 法 接受 。 处 理 器 之 间 进 行 同步 的 目的 有 二 : 一 是 确保 回收 过 程 的 正确 性 ， 
二 是 最 大 限度 地 减少 重复 工作 。 正 确 性 包括 两 方面 的 含义 : 一 方面 要 避免 并 行 执行 的 回收 线 
程 破坏 堆 ， 另 一 方面 要 避免 其 破坏 回收 器 自身 数据 结构 。 例 如 ， 任 何 移动 式 回收 器 都 必须 保 
证 一 个 对 象 只 可 能 被 一 个 线程 所 复制 ， 如 果 两 个 线程 同时 复制 同一 对 象 ， 则 在 最 乐观 的 情况 
下 ( 即 对 象 不 可 修改 ) 仅 会 造成 空间 上 的 浪费 ， 而 在 最 差 情 况 下 两 个 副本 将 出 现 不 一 致 。 对 
回收 吉 自 身 数 据 结构 进行 保护 也 是 十 分 必要 的 ， 如 果 所 有 线程 共享 同一 个 标记 栈 ， 则 所 有 的 
压 人 与 弹出 操作 都 必须 是 同步 的 ， 只 有 这 样 才能 避免 多 个 线程 同时 操作 栈 或 者 增加 / 移 除 元 
素 时 可 能 出 现 的 工作 丢失 问题 。 

各 回收 线程 之 间 的 同步 存在 时 间 和 空间 两 方面 的 开销 。 线 程 在 进行 独占 式 访 问 时 可 能 会 
使 用 锁 或 者 无 等 待 数 据 结 构 ， 因 此 设计 良好 的 算法 应 当 尽 量 减少 需要 进行 同步 的 操作 ， 例 如 
使 用 线程 本 地 数据 结构 。 对 于 需要 进行 同步 的 操作 ， 应 当 确 保 其 在 大 多 数 情 况 下 能 够 执行 到 
速度 较 快 的 分 支 ， 例如 锁 竞 争 的 情况 应 当 极 少 发 生 ， 或 者 诸如 compareandswap 等 原子 操作 
应 当 在 绝 大 多 数 情 况 下 都 执行 成 功 。 如 果 竞 争 失 败 ， 则 使 用 无 等 待 方式 竞争 其 他 工作 通常 要 
比重 试 策略 要 好 。 但 在 某 些 情况 下 ， 即 使 不 使 用 独占 式 访问 ， 回 收 的 正确 性 也 能 得 到 保证 ， 
此 时 便 可 省 略 同步 操作 。 例 如 设置 对 象 头 部 的 标记 位 即 是 一 个 窜 等 操作 ， 两 个 线程 设置 相同 
标记 位 的 唯一 风险 在 于 回收 器 执行 了 一 些 不 必要 的 工作 ， 但 其 开销 通常 会 比 执行 同步 操作 要 
小 得 多 。 

并 行 回收 的 具体 实现 需要 在 负载 均衡 和 同步 开销 方面 做 出 平衡 。 现 代 并 行 回收 器 通常 会 
令 各 回收 线程 竞争 较 大 的 工作 任务 ， 同 时 尽量 避免 线程 在 处 理 任务 的 过 程 中 引入 其 他 同步 操 
作 。 工 作 任 务 有 多 种 组 织 方式 : 线程 本 地 标记 栈 、 堆 中 不 同 的 扫描 区 域 、( 固 定 大 小 的 ) T 
作 缓 冲 区 池 等 。 当 然 ， 这些 数 据 结 构 往 往 也 会 拥有 其 自身 的 元 数据 ， 并 可 能 引入 一 定 的 碎 
片 ， 因 而 也 会 产生 一 定 的 空间 开销 ， 但 这 一 开销 通常 较 小 。 


14.4 “并行 回收 的 分 类 


在 本 章 的 后 续 部 分 ， 我 们 将 介绍 并 行 标记 、 并 行 清 扫 、 并 行 复制 、 并 行 整理 的 具体 解决 
方案 ， 所 有 算法 均 假 定 在 回收 线程 从 开始 执行 到 执行 完毕 的 过 程 中 ， 赋 值 器 线程 均 挂 起 在 安 
全 回收 点 。 我 们 尽 可 能 在 一 个 统一 的 框架 内 对 各 种 场景 进行 研究 。 不 论 是 对 于 哪 种 情况 ， 我 
们 均 需 要 关注 算法 如 何 实现 回收 工作 的 获取 ( acquire)、 执 行 (perform)、 生 成 (generate )， 
这 3 种 操作 的 设计 与 实现 决定 了 算法 所 需 同步 操作 的 类 型 、 单 个 回收 线程 的 负载 粒度 ， 以 及 
在 多 个 处 理 器 之 间 进 行 负载 均衡 的 策略 。 

并 行 垃圾 回收 算法 大 致 可 以 划分 为 两 大 类 ， 即 以 处 理 器 为 中 心 (processor-centric) 的 并 
行 算 法 和 以 内 存 为 中 心 (memory-centric) 的 并 行 算 法 。 在 以 处 理 器 为 中 心 的 算法 中 ， 线 程 
所 获取 的 工作 通常 大 小 不 等 ， 且 线程 之 间 通 常会 存在 工作 窃取 行为 。 该 策略 通常 不 关注 线程 
所 处 理 对 象 的 位 置 ， 但 通过 前 面 的 章节 我 们 知道 ， 即 使 是 在 单 处 理 器 环境 下 ， 局 部 性 都 会 对 
处 理性 能 产生 显著 影响 ， 而 对 于 非 一 致 内 存 或 者 异 构 系统 而 言 ， 局 部 性 的 作用 则 更 加 重要 。 
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以 内 存 为 中 心 的 算法 会 更 多 考虑 局 部 性 因素 ， 此 类 算法 通常 会 针对 堆 中 连续 内 存 块 进行 操 
作 ， 并 从 共享 工作 缓冲 区 池 中 获取 工作 包 (或 者 将 工作 包 释 放 到 全 局 工作 池 中 )， 工 作 包 的 
大 小 通常 固定 。 绝 大 多 数 并 行 复 制式 回收 器 均 使 用 这 一 策略 。 

最 后 让 我 们 关注 并 行 回收 的 结束 。 回 收 线程 不 仅 会 尝试 获取 工作 ， 而 且 还 会 进一步 动态 
地 生成 新 的 工作 。 因 此 ， 简 单 判定 共享 工作 池 是 否 为 空 通常 不 足以 断定 回收 过 程 是 否 结束 ， 
因为 活动 线程 可 能 还 会 向 工作 池 中 加 入 新 的 任务 。 
14.5 “并 行 标记 

标记 过 程 包含 3 种 操作 : 从 工作 列表 中 获取 一 个 对 象 、 检 测 并 设置 标记 位 、 将 对 象 的 子 
节点 添加 到 工作 列表 以 确保 标记 工作 的 持续 。 到 目前 为 止 ， 所 有 已 知 的 并 行 标记 算法 都 是 以 
处 理 器 为 中 心 的 。 如 果 使 用 线程 本 地 工作 列表 ， 则 在 工作 列表 不 为 空 的 情况 下 ， 从 中 获取 对 
象 无 需 任何 同步 操作 ， 否 则 线程 必须 原子 化 地 获取 新 工作 ( 即 一 个 或 多 个 对 象 )， 可 以 是 从 
其 他 线程 的 工作 列表 中 窃取 ， 也 可 从 全 局 工作 列表 中 获取 。 原 子 化 的 目的 主要 是 为 了 确保 线 
程 在 从 其 他 工作 列表 中 获取 工作 时 不 破坏 其 完整 性 。 对 于 非 移动 式 回收 器 ， 多 次 标记 同一 对 
象 或 者 多 次 将 其 添加 到 工作 列表 仪 会 影响 回收 的 性 能 ， 但 不 会 对 回收 的 正确 性 造成 影响 。 尽 
管 在 最 差 情 况 下 ， 某 一 线程 可 能 会 在 其 他 线程 处 理 完 某 一 数据 结构 之 后 再 次 对 其 进行 处 理 ， 
但 在 实践 中 这 一 情况 通常 很 少 发 生 。 因 此 ， 如 果 使 用 对 象 头 部 的 一 个 位 或 者 字 节 图 中 的 一 个 
字 节 来 记录 对 象 是 否 已 得 到 标记 ， 则 标记 位 的 检测 与 设置 均 可 以 通过 非 原子 化 的 读 写 操作 完 
成 。 但 是 ， 如 果 使 用 位 图 中 的 位 来 记录 对 象 是 否 已 得 到 标记 ， 则 在 设置 标记 位 时 必须 使 用 原 
子 操作 。 如 果 工 作 列 表 为 线程 私有 ， 且 容量 无 限 ， 则 将 对 象 子 节 点 添加 到 工作 列表 中 也 无 需 
使 用 同步 操作 。 反 之 ， 如 果 工 作 列表 是 共享 的 ， 或 者 其 容量 有 限 ， 则 同步 操作 将 不 可 避免 。 
在 工作 列表 容量 有 限 的 情况 下 ， 一 旦 线程 本 地 工作 列表 被 填 满 ， 则 其 必须 将 部 分 工作 释放 到 
全 局 工作 列表 中 。 如 果 对 象 是 非常 大 的 指针 数组 ， 则 一 次 性 将 其 子 节点 全 部 添加 到 工作 列表 
中 可 能 会 影响 线程 之 间 的 负载 均衡 。 某 些 回收 器 (特别 是 应 用 于 实时 系统 的 回收 右 ) 会 增 量 
式 地 处 理 大 对 象 的 指针 域 ， 其 实现 方法 通常 是 将 大 对 象 通过 链 式 数据 结构 实现 ， 而 非 一 大 块 
连续 数组 。 
以 处 理 器 为 中 心 的 并 行 回收 

工作 窃取 (work stealing), Endo 等 [1997]、Flood 等 [2001] Siebert[2010] 均 使 用 工作 
窃取 策略 来 实现 负载 均衡 ， 即 一 旦 某 线程 完成 标记 任务 ， 其 将 从 其 他 线程 的 工作 列表 中 和 窍 
取 工 作 任 务 。 在 Endo 等 的 并 行 Boehm and Weiser [1988] 保守 式 标 记 - 清扫 回收 器 中 ， 他 们 
为 每 个 线程 都 配备 了 本 地 标记 栈 以 及 可 窃取 工作 队列 〈stealable work queue) ( 见 算法 14.1 )。 
每 个 线程 会 周期 性 地 检查 其 可 窃取 标记 队列 是 否 为 空 ， 若 检查 结果 为 空 ， 则 将 其 标记 栈 中 的 
所 有 工作 转移 到 该 队列 中 (本 地 根除 外 )。 处 于 空闲 状态 的 线程 将 首先 检查 其 本 地 可 窃取 队 
列 ， 若 其 为 空 ， 则 将 进一步 检查 其 他 线程 的 可 窃取 队列 。 一 且 其 发 现 了 非 空闲 队列 ， 其 会 将 
队列 中 的 一 半 元 素 “ 穷 取 ” 到 本 地 标记 栈 中 。 多 个 线程 可 能 会 同时 尝试 工作 窃取 ， 因 此 可 窃 
取 队 列 必须 通过 锁 来 保护 。Endo 等 人 发 现 ， 如 果 使 用 加 锁 - 窃取 的 实现 策略 ， 处 理 器 会 将 
大 量 时 间 耗 费 在 加 锁 过 程 中 ， 因 此 他 们 将 工作 窃取 的 策略 修改 为 : 尝试 加 锁 ， 如 果 成 功 ， 则 
执行 窃取 ， 和 否则 ， 便 将 其 跳 过 。 也 就 是 说 ， 如 果 线 程 发 现 某 一 队列 已 被 加 锁 ， 或 者 尝试 加 锁 
失败 ， 则 将 跳 过 该 队列 并 尝试 从 下 一 个 队列 中 进行 窃取 。 这 一 执行 序列 满足 无 锁 要求 。 
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算法 14.1 Endo SA [1997] 的 并 行 标记 一 清扫 算法 


1 shared stealableWorkQueue[N] /* 每 线程 一 个 */ 
2 me {+ myThreadId 


4 acquireWork(): 

5 if not isEmpty(myMarkStack) /* 本 地 标记 栈 存 在 待 处 理工 作 */ 
6 return 

7 lock(stealableWorkQueue|[me]) 

8 /* 将 本 地 可 窍 取 工 作 列表 中 的 一 半 元 素 迁 移 到 标记 栈 */ 

9 n + size(stealableWorkQueue[me]) / 2 

10 transfer(stealableWorkQueue[me], n, myMarkStack) 

n unlock(stealableWorkQueue[me]) 


13 if isEmpty(myMarkStack) 

“4 for each j in Threads 

15 if not locked(stealableWorkQueue[j]) 

16 if lock(stealableWorkQueue[j]) 

17 /* 将 该 线程 可 宅 取 工作 列表 中 的 一 半 元 素 迁 移 到 标记 栈 */ 

8 n + size(stealableWorkQueue|me]) / 2 

19 transfer(stealableWorkQueue[j], n, myMarkStack) 
20 unlock(stealableWorkQueue[5]) 

2 return 


» performWork(): 
u while pop(myMarkStack, ref) 
for each fld in Pointers(ref) 
child + *fld 
if child Æ null & not isMarked(child) 
setMarked(child) 
push(myMarkStack, child) 
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2 


generateWork(): /* 将 本 地 标记 栈 中 的 所 有 元 素 迁 移 到 本 地 可 窃取 工作 队列 中 */ 
if isEmpty(stealableWorkQueue[me]) 
n + size(markStack) 
lock(stealableWorkQueue[me]) 
transfer(myMarkStack, n, stealableWorkQueue|me]) 
unlock(stealableWorkQueue[me]) 
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所 有 并 行 回 收 器 都 必须 仔细 考虑 如 何 进 行 位 图 标记 ， 以 及 如 何 对 大 数组 进行 处 理 。 设 置 
位 图 中 某 一 位 的 操作 必须 满足 原子 化 要 求 。 最 显而易见 的 方法 可 能 是 对 需要 设置 的 位 所 在 的 
字 加 锁 ， 但 Endo 等 人 提出 了 一 种 更 加 高 效 的 算法 ， 即 先 简单 地 读 取 并 检测 该 标记 位 ， 如 果 
其 尚未 设置 ， 则 尝试 发 起 原子 化 的 设置 操作 ， 如 果 该 操作 失败 ， 则 进行 重 试 (由 于 位 图 中 的 
标记 位 仅 可 能 在 标记 阶段 被 设置 ， 因 而 重 试 次 数 必然 存在 上 限 )， 如 算法 14.2 所 示 。 当 然 ， 
如 果 将 标记 位 存放 在 对 象 头 部 ， 则 标记 位 的 设置 便 无 需 借助 于 任何 原子 操作 ， 如 Flood 等 
[2001] 的 文献 所 描述 的 那样 。 


算法 14.2 基于 位 图 的 并 行 标记 


1 setMarked(ref): 

2 oldByte + markByte(ref) 

3 bitPosition + markBit(ref) 

4 loop 

5 if isMarked(oldByte, bitPosition) 
6 return 


248 # 14 Ë 


7 newByte ¢ mark(oldByte, bitPosition) 
8 if CompareAndSet(&markByte(ref), oldByte, newByte) 
9 return 


经 验 表 明 ， 大 型 指针 数组 通常 会 引发 诸多 问题 。 例 如 ， 为 避免 标记 栈 溢出 ，Boehm 和 
Weiser [1988] 会 将 大 对 象 拆 分 为 多 个 较 小 的 片段 ( 128 个 字 ) 来 进行 处 理 。 类 似 地 ，Endo 等 
人 在 将 大 对 象 添 加 到 标记 栈 或 者 工作 队列 之 前 ， 会 将 其 拆 分 成 512 字 节 的 片段 来 确保 线程 之 
间 的 负载 均衡 ， 此 时 标记 栈 或 者 工作 队列 中 所 记录 的 将 是 <address, size> 对 组 。 

Flood 等 人 [2001] 所 设计 的 并 行 分 代 回 收 器 通过 复制 策略 来 管理 年 轻 代 ， 同 时 使 用 标 
记 一 整理 策略 来 管理 年 老 代 。 本 节 我 们 仅 关 注 其 并 行 标记 部 分 。 在 Endo 等 人 的 设计 中 ， 每 
个 线程 都 配备 了 一 个 标记 栈 以 及 一 个 可 窃取 工作 队列 ， 而 在 Flood 等 人 的 设计 中 ， 他 们 使 用 
Arora 等 人 [1998] 提出 的 算法 实现 无 锁 工 作 窃 取 ， 且 每 个 回收 线程 仅 需 使 用 一 个 双 端 队列 ， 
该 算法 的 同步 开销 较 低 ， 能 够 支持 单个 对 象 级 别 的 负载 均衡 。 该 算法 的 工作 流程 如 下 (也 可 
参见 13.8 节 Arora 并 发 队列 的 实现 细节 ， 即 算法 13.38 ) : 回收 线程 将 其 自身 双 端 队列 的 底 
部 当 作 标 记 栈 ， 对 于 该 线程 而 言 ，push 操作 无 需 任何 同步 操作 ，pop RERA ENA PRE 
一 个 元 素 时 才 需 使 用 同步 操作 。 处 于 空闲 状态 的 线程 将 使 用 同步 remove 操作 窃取 其 他 线程 
双 端 队列 的 顶端 元 素 。 这 一 工作 窃取 策略 的 优点 之 一 是 ， 只 有 当 线 程 之 间 需 要 进行 负载 均 
衡 时 才 会 引入 同步 操作 ， 而 反观 其 他 工作 窃取 方案 (例如 我 们 即将 介绍 的 灰色 工作 包 算 法 )， 
其 负载 均衡 开销 存在 于 算法 的 全 部 执行 过 程 中 。 

为 避免 在 回收 过 程 中 进行 动态 内 存 分 配 ，Flood 等 人 的 线程 本 地 双 端 队列 长 度 固定 , 但 
这 存在 潜在 的 队列 溢出 风险 。 针 对 这 一 问题 ， 他 们 提供 了 额外 的 全 局 游 出 集合 ， 该 集合 仅 会 
在 每 个 类 上 引入 很 小 的 开销 。 在 他 们 的 设 


类 A 的 类 B 的 类 C 的 
计 中 ， 每 个 Java 类 所 对 应 的 类 型 信息 都 会 类 型 信息 类 型 信息 类 型 信息 
持 有 一 个 链表 ， 该 链表 是 由 该 类 型 的 所 有 
溢出 实例 链接 而 成 的 (如 图 14.2 所 示 )。 将 aam | = B 
溢出 对 象 彼此 链接 的 指针 会 复 用 对 象 头 部 


指向 其 类 型 信息 的 指针 ， 尽 管 该 指针 会 在 gi 

对 象 从 溢出 链表 中 移 除 时 得 到 恢复 ， 但 这 
一 修改 行为 决定 了 该 算法 不 适用 于 并 发 回 四 
收 器 ， 因 为 对 于 并 发 回收 而 言 ， 回 收 过 程 
中 赋值 器 可 能 需要 访问 对 象 的 类 型 信息 。 X 

该 算法 的 溢出 处 理 逻 辑 如 下 ; 一 旦 回收 线 DN 

程 在 将 某 一 元 素 添加 到 本 地 双 端 队列 底部 
时 发 生 溢出 ， 则 其 会 将 队列 中 的 一 半 元 素 
迁移 到 它们 各 自 月 的 溢出 集合 中 。 
ee jes abso ana 有 其 所 对 应 溢出 实例 的 链表 头 ， 而 每 个 溢出 
erm 之 前 de He iF th 集合 中 前 元 实例 则 会 复 用 其 头 部 的 类 型 指针 来 实现 链接 


素来 将 其 本 地 双 端 队列 填充 到 半 满 状态 (如 算法 14.3 所 示 )。 
算法 14.3 Flood 等 人 [2001] 的 并 行 标记 -- 清扫 算法 


1 shared overflowSet 
2 shared deque[N] /* 每 线程 一 个 */ 


图 14.2 ”以 两 级 链表 方式 实现 的 全 局 溢出 集合 [Flood 
等 ，2001]。 每 个 Java 类 的 类 型 信息 都 会 持 
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me 全 myThreadid 


3 

4 

s acquireWork(): 

6 if not isEmpty(dequel[me]) 

7 return 

8 n + size(overflowSet) / 2 

9 if transfer(overflowSet, n, deque|me]) 
10 return 

u for each j in Threads 

2 ref + remove(deque[j]) /* 尝试 从 编号 为 j 的 队列 中 窃取 */ 
13 if ref Æ null 

“ push(deque[me], ref) 

15 return 


v performWork(): 


18 loop 

19 ref + pop(deque[me]) 

20 if ref = null 

2 return 

2 for each fld in Pointers(ref) 

2B child + *fld 

24 if child # null & not isMarked(child) 
5 setMarked(child) 

% if not push(deque[me], child) 

z n + size(dequelme]) / 2 

28 transfer(deque[me], n, overflowSet) 
2 

æ generateWork(): 

a lx i 


Siebert[2010] 在 Jamaica 实时 Java 虚拟 机 的 并 行 与 并 发 实现 中 同样 使 用 了 工作 窃取 技 
术 。 为 限制 标记 阶段 每 个 工作 步骤 的 执行 时 间 ，Jamaica 将 对 象 拆 分 为 通过 指针 彼此 链接 的 
内 存 块 ， 且 回收 器 以 内 存 块 而 非 对 象 为 最 小 工作 单元 ， 因 此 该 方案 会 将 每 个 内 存 块 与 一 种 颜 
色相 关联 。 我 们 将 在 第 15 章 看 到 ， 并 发 执行 的 赋值 器 线程 和 回收 器 线程 都 可 能 需要 对 灰色 
内 存 块 链表 进行 访问 ? 。 为 避免 这 一 场景 下 的 同步 开销 ，Jamaica 虚拟 机 使 用 处 理 器 本 地 灰色 
链表 。 此 时 对 象 内 部 的 链表 指针 将 不 能 复 用 指向 类 型 信息 的 指针 ， 因 而 Siebert 的 策略 是 复 
用 表示 对 象 颜 色 的 字 ， 并 使 用 compareandswap 操作 将 对 象 链 入 本 地 灰色 链表 中 。 但 这 一 方 
案 的 开销 在 于 ， 内 存 块 的 颜色 必须 使 用 一 个 完整 的 字 而 非 数 个 位 来 表示 。 为 确保 负载 均衡 ， 
处 于 空闲 状态 的 线程 将 尝试 窃取 另 一 个 线程 灰色 链表 中 的 全 部 元 素 。 为 避免 两 个 线程 处 理 相 
同 的 灰色 对 象 ，Siebert 使 用 煤 灰 色 (anthracite) 来 表示 线程 正在 扫描 的 对 象 。 线 程 还 可 以 通 
过 另 一 种 策略 实现 工作 窃取 ， 即 尝试 将 另 一 个 处 理 器 本 地 灰色 链表 的 表 头 修改 为 煤 灰 色 。 这 
一 穷 取 机 制 粒 度 较 粗 ， 其 最 佳 适 用 场景 应 当 是 被 窃取 线程 只 会 生成 新 的 工作 但 不 处 理 任何 工 
作 的 情形 。 实 时 并 发 回收 器 中 可 能 会 存在 此 类 线程 。 但 如 果 所 有 线程 都 会 处 理 回收 工作 ， 则 
可 能 出 现 所 有 线程 全 部 都 竞争 仅 有 的 一 个 灰色 内 存 块 链表 的 情况 。Siebert 声称 这 一 情况 在 
实践 中 通常 不 会 发 生 。 

工作 窃取 场景 下 的 结束 检测 。 回 收 器 必须 能 够 判定 某 一 工作 阶段 何 时 结束 ， 即 在 何 时 所 
有 协同 工作 的 线程 都 已 执行 完毕 。Endo 等 人 [1997] 最 初 尝 试 使 用 一 个 全 局 的 计数 器 来 表示 
空 标记 栈 和 空 可 窃取 标记 队列 的 数量 ， 但 原子 更 新 该 计数 器 的 操作 将 导致 结束 检测 串 行 化 ， 


O 在 并 发 回收 器 中 ， 赋 值 器 线程 可 能 需要 承担 一 定 的 回收 工作 。 一 一 译 者 注 
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在 大 型 系统 (处 理 器 数量 达到 32 个 甚至 更 多 ) 中 加 锁 操 作 可 能 会 产生 显著 的 时 间 开 销 。 针 


对 这 一 问题 ， 他 们 的 解决 方案 是 为 每 个 处 理 器 关联 两 个 旋 标 ， 即 栈 空 旋 标 和 队列 空 旋 标 ， 分 
别 表示 标记 栈 或 者 可 窃取 工作 队列 是 否 为 空 ， 线 程 在 设置 或 清除 这 些 旗 标 时 无 需 使 用 同步 
操作 ， 具 体 实现 细节 可 参见 算法 13.18。 在 执行 结束 检测 时 ， 检 测 线程 先 清 空 全 局 检测 中 止 
(detection-interrupted) 旗 标 ， 然 后 顺 次 检测 所 有 其 他 处 理 器 的 空闲 旗 标 ， 最 后 再 判断 检测 中 
止 旗 标 是 否 被 其 他 处 理 器 重新 设置 ， 如 果 没 有 ， 则 意味 着 该 阶段 结束 。 该 策略 要 求 处 理 器 A 
在 窃取 处 理 器 B 的 全 部 工作 时 必须 严格 遵守 如 下 协议 : 首先 清空 自身 的 栈 空 旗 标 ， 然 后 设置 
检测 中 止 旗 标 ， 最 后 设置 B 的 队列 空 旗 标 。 但 Petrank 和 Kolodner 指出 ， 该 算法 不 允许 多 个 
线程 同时 进行 结束 检测 ， 因 为 第 二 个 检测 线程 可 能 会 在 第 一 个 检测 线程 设置 检测 中 止 旗 标 之 
后 再 次 将 其 清空 ， 从 而 导致 第 一 个 检测 线程 误 认 为 该 旗 标 始终 处 于 清空 状态 。 

Kolodner 和 Petrank [1999] 提出 了 一 种 能 够 处 理 多 种 并 发 问题 的 通用 解决 方案 。 为 确保 
在 任意 时 刻 只 有 一 个 线程 可 以 执行 结束 检测 ， 他 们 引入 了 一 个 全 局 字 来 作为 检测 器 身份 标 
识 。 线 程 在 尝试 进行 结束 检测 之 前 必须 先 判 定 该 身份 标识 是 否 为 -1 (意味 着 当前 没有 线程 
执行 结束 检测 )， 如 果 结 果 为 真 ， 则 尝试 原子 化 地 设置 身份 标识 ,否则 ， 将 继续 等 待 。 

Flood 等 人 使 用 一 个 状态 字 来 执行 结束 检测 ， 该 状态 字 的 每 个 位 对 应 一 个 回收 线程 ， 且 
对 该 字 进 行 修改 时 必须 使 用 原子 操作 。 在 初始 情况 下 ， 所 有 线程 均 处 于 活动 状态 ,一 旦 某 一 
线程 完成 工作 ( 且 未 从 其 他 线程 窃取 到 任何 工作 )， 则 其 会 把 自身 标记 位 清空 ， 并 循环 检测 
状态 字 中 的 所 有 状态 标记 位 是 否 都 被 清空 。 如 果 结 果 为 真 ， 意 味 着 所 有 线程 均 完 成 工作 ， 即 
回收 阶段 结束 ; 和 否则， 线程 将 尝试 从 其 他 线程 窃取 工作 。 如 果 存 在 可 窃取 工作 ， 则 线程 先 将 
自身 状态 位 设置 为 活跃 ， 然 后 尝试 窃取 ; 如 果 窃 取 失 败 ， 其 将 再 次 清空 自身 状态 位 并 继续 执 
行 循 环 检测 。 该 算法 显而易见 的 问题 在 于 回收 线程 的 数量 不 得 超过 一 个 字 中 所 包含 的 位 的 数 
量 ， 为 此 ，Flood 等 人 建议 使 用 活跃 线程 计数 器 来 替代 状态 字 。 

灰色 工作 包 (grey packets). Ossia 等 人 发 现 ， 具 备 工作 穷 取 能 力 的 标记 栈 最 适用 于 回 
收 线程 数量 可 以 提前 预知 的 回收 器 [Ossia 等 ，2002 ; Barabash 等 ，2005]， 但 是 对 于 要 求 赋 
值 器 (在 分 配 过 程 中 ) 也 承担 一 小 部 分 回收 工作 的 场景 ， 该 策略 可 能 不 再 适用 。 除 此 之 外 他 
们 认为 ， 如 果 线 程 既 要 选择 最 佳 目标 队列 来 进行 工作 穷 取 ， 又 要 执行 结束 检测 ， 实 现 起 来 可 
能 存在 困难 。 针 对 这 一 问题 ， 他 们 的 负载 均衡 策略 是 驱使 每 个 线程 将 争 标记 工作 包 以 进行 处 
理 。 在 他 们 的 系统 中 ， 可 用 工作 包 的 数量 固定 ( 1000 个 )， 且 每 个 工作 包 的 大 小 也 保持 固定 
(512 个 元 素 )。 

每 个 线程 使 用 两 个 工作 包 ， 线 程 本 身 对 输入 工作 包 中 的 元 素 进 行 处 理 ， 并 将 新 产生 的 工 
作 添 加 到 输出 工作 包 中 。 在 三 色 抽 和 象 框架 下 ， 两 种 工作 包 中 的 元 素 均 为 灰色 ， 因 而 我 们 使 
AE LY & (grey packets) 这 一 名 称 ， 该 名 称 最 初 是 由 Thomas 等 人 [1998] 在 Insignia’s 
Jeode Java 虚拟 机 中 提出 的 ?9。 线 程 会 尝试 从 全 局 工作 池 中 获取 新 的 工作 包 ， 当 线程 填 满 输出 
工作 包 时 会 将 其 释放 到 全 局 工作 池 ， 并 从 中 获取 一 个 新 的 空 工作 包 。Ossia 等 在 全 局 工作 池 
中 维护 三 个 工作 包 链 表 ， 它 们 分 别 是 如 下 3 种 工作 包 的 集合 : 空 工作 包 、 填 充 率 不 足 一 半 的 
工作 包 、 接 近 填 满 的 工作 包 ， 如 图 14.3 所 示 。 线 程 在 获取 输入 工作 包 时 将 优先 选择 接近 填 
满 的 工作 包 (算法 14.4 中 的 getInPacket 方法 )， 而 在 获取 输出 工作 包 时 将 优先 选择 空 工作 
包 (算法 14.4 中 的 getoutPacket 方法 )。 


日 这 一 思想 最 初 是 由 Ossia 等 人 [2002] 提出 的 ， 但 他们 并 未 对 其 申请 专利 。 
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图 14.3 灰色 工作 包 。 每 个 线程 会 从 全 局 工作 池 中 获取 一 个 空 工作 包 来 替代 已 被 填 满 的 输出 工作 包 。 线 
程 在 标记 过 程 中 会 使 用 新 的 待 追 踪 引 用 填充 输出 包 ， 一旦 填 满 ， 则 将 其 与 全 局 工作 池 中 的 空 工 


作 包 进行 置换 

算法 14.4 灰色 工作 包 的 管理 
shared fullPool /* 满 工 作 包 全 局 池 */ 
shared halfFullPool /* 半 满 工作 包 全 局 池 */ 


shared emptyPool /* 空 工作 包 全 局 池 */ 


atomic 
inPacket + remove(fullPool) 


i 

2 

3 

4 

s getInPacket(): 
6 

7 

8 if isEmpty(inPacket) 
9 


atomic 
10 inPacket + remove(halfFullPool) 
n if isEmpty(inPacket) 
12 inPacket, outPacket + outPacket, inPacket 
13 return not isEmpty(inPacket) 


5 testAndMarkSafe(packet): 
16 for each ref in packet 
17 safe(ref) + allocBit(ref) = true /* 私有 数据 结构 */ 


» getOutPacket(): 
a if isFull(outPacket) 
generateWork() 
if outPacket = null 
atomic 
outPacket + remove(emptyPool) 
if outPacket = null 
atomic 
remove(halfFullPool) 
if outPacket = null 
if not isFull(inPacket) 
inPacket, outPacket + outPacket, inPacket 


E ESBENSEN 


2 


32 return 

3 

u addOutPacket(ref): 

35 getOutPacket() 

% if outPacket = null || isFull(outPacket) 
37 dirtyCard(ref) 

38 else 

39 add(outPacket, ref) 


灰色 工作 包 策 略 存在 诸多 优势 。 在 将 标记 过 程 的 输入 和 输出 相 分 离 之 后 ( Ossia 等 避免 
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直接 交换 线程 的 输入 输出 工作 包 )， 处 理 器 通常 不 会 立即 处 理 自己 所 输出 的 新 工作 ， 因 而 实 
现 了 处 理 器 之 间 的 负载 均衡 。 由 于 灰色 工作 包 中 所 包含 的 都 是 可 以 顺序 处 理 的 引用 队列 ， 所 
以 其 天 然 支持 对 下 一 个 待 标记 对 象 进行 预 取 。 

只 有 当 线 程 从 全 局 工作 池 中 获取 工作 包 ， 或 者 将 工作 包 释 放 到 全 局 工作 池 时 ， 算 法 才 需 
要 引入 同步 操作 。 如 果 借 助 于 compareandswap 原 语 ， 则 这 些 操作 都 能 够 以 非 阻 塞 方式 实现 
(为 避免 ABA 问题 ， 线 程 需要 将 自身 标识 添加 到 链表 头 ) 。 对 于 内 存 一 致 性 保障 较 弱 的 系统 ， 
它们 还 通过 多 种 策略 来 尽量 减少 内 存 屏 障 的 使 用 。 只 有 在 线程 获取 或 者 释放 工作 包 时 才 需 引 
和 人 内存 屏障 ， 而 标记 过 程 以 及 将 单个 对 象 压 栈 的 过 程 都 无 需 引 入 屏障 。 在 对 线程 栈 进行 保守 
式 扫 描 的 过 程 中 ，Ossia 等 人 使 用 分 配 位 (allocation bits) 向 量 来 判定 潜在 的 “指针 ”是 否 
真正 指向 某 个 已 分 配对 象 ， 分 配 位 向 量 也 可 用 于 赋值 器 与 回收 器 之 间 的 同步 。 在 Ossia 等 人 
的 设计 中 ， 分 配器 使 用 本 地 分 配 缓冲 区 ， 一 且 本 地 分 配 缓冲 区 溢出 ， 则 分 配器 首先 执行 内 存 
屏障 ， 然 后 再 为 本 地 分 配 缓冲 区 中 的 所 有 对 象 设 置 分 配 位 ， 最 后 才 会 申请 新 的 本 地 分 配 缓冲 
区 。 这 一 顺序 可 以 确保 在 从 新 缓冲 区 中 分 配对 象 之 前 ， 老 缓冲 区 中 的 对 象 都 已 正确 设置 分 配 
位 (如 算法 14.5 所 示 )。 算 法 还 有 两 处 需要 引入 屏障 ， 一 处 是 追踪 线程 在 获取 新 的 输入 工作 
包 时 ， 此 时 线程 需要 检查 新 工作 包 中 每 个 对 象 的 分 配 位 ， 并 在 某 一 私有 数据 结构 中 记录 每 个 
对 象 是 否 可 以 安全 进行 扫描 ( 即 其 分 配 位 是 否 已 被 设置 )。 该 过 程 完成 后 ,线程 首先 执行 内 
存 屏 障 ， 然 后 进一步 对 所 有 安全 对 象 进 行 追踪 。 不 安全 对 象 会 被 添加 到 额外 的 工作 包 中 ， 回 
收费 将 延迟 对 这 些 对 象 的 追踪 ( 见 算 法 14.6 )， 延 迟 工作 包 有 可 能 会 在 某 一 时 刻 释放 到 全 局 
工作 池 中 。 这 一 策略 可 以 确保 线程 不 会 追踪 分 配 位 尚未 设置 的 对 象 。 追 踪 线 程 在 将 其 输出 工 
作 包 释放 到 全 局 工作 池 时 也 需 执 行内 存 屏障 (其 目的 在 于 避免 处 理 器 指令 重 排序 可 能 产生 的 
错误 ， 即 线程 在 将 工作 包 释 放 到 全 局 工作 池 之 后 依然 向 其 中 追加 工作 )。 从 全 局 工作 池 中 获 
取 输 入 工作 包 的 操作 通常 无 需 引 入 屏障 ， 因 为 加 载 工作 包 指 针 和 对 该 指针 进行 访问 这 两 个 操 
作 之 间 存 在 依赖 加 载 关 系 ， 绝 大 多 数 硬 件 都 可 以 确保 该 操作 的 执行 顺序 。 


算法 14.5 ”灰色 工作 包 策略 中 的 并 行 分 配 


1 sequentialAllocate(n): 

2 result + free 

3 newFree + result + n 
4 if newFree < labLimit 
5 free + newFree 

6 return result 

7 
8 
9 


/* 本 地 分 配 缓冲 区 溢出 */ 


fence $ 
10 for each obj in lab 
u allocBit(obj) + true 
2 lab, labLimit + newLab() 
13 if lab = null 
“ return null /* AHR */ 
15 sequentialAllocate(n) 


算法 14.6 ”基于 灰色 工作 包 的 并 行 扫描 
shared fullPool /* 满 工作 包 全 局 池 */ 


acquireWork(): 
if isEmpty(inPacket) 


= ow Nn n 
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if getInPacket() 
testAndMarkSafe(inPacket) 


5 

6 

- fence $ 
8 

9 performWork(): 

10 for each ref in inPacket 

n if safe(ref) 

2 for each fld in Pointers(ref) 

B child + xfld 

u if child # null & not isMarked(child) 

15 setMarked(child) 

16 addOut Packet (child) 

17 else 

18 addDeferredPacket(ref) /* 延迟 对 不 安全 对 象 的 追踪 */ 
19 

2» generateWork(): 

2 fence $ 
2 add(fullPool, outPacket) 

2B outPacket ¢ null 


灰色 工作 包 的 状态 跟踪 相对 容易 。 每 个 全 局 工作 池 都 会 关联 一 个 表示 其 内 部 工作 包 数 量 
的 计数 器， 线程 在 获取 或 者 释放 工作 包 之 后 会 通过 原子 操作 对 其 进行 更 新 。 由 于 计数 器 的 
更 新 会 比 工 作 包 的 获取 或 者 释放 操作 浪 后 ， 所 以 该 值 只 能 作为 工作 包 数 量 的 一 个 近似 。 但 不 
Wim, 一 旦 空 工作 包 的 数量 与 工作 包 的 总 量 相 同 ， 则 必然 意味 着 扫描 阶段 的 结束 。 为 确保 
空 工作 包 的 数量 与 工作 包 总 量 不 会 临时 性 地 相等 ， 每 个 线程 在 置换 工作 包 时 必须 遵循 先 获取 
新 工作 包 、 再 释放 老 工 作 包 的 顺序 。 在 回收 开始 时 ， 线 程 必 须 先 获 取 其 输入 工作 包 、 再 获取 
输出 工作 包 ， 这 样 才能 确保 即使 线程 没有 发 现任 何 可 以 处 理 的 工作 ,结束 检测 也 不 会 受到 影 
响 。 如 果 各 回收 线程 均 遵 从 上 述 两 个 规则 ， 则 获取 /释放 工作 包 与 更 新 工作 包 计 数 这 两 个 操 
作 便 可 异步 地 执行 。 

灰色 工作 包 策 略 限制 了 标记 队列 的 整体 最 大 深度 ， 所 以 标记 过 程 可 能 会 溢出 。 如 果 线 程 
无 法 获取 尚未 填 满 的 输出 工作 包 ， 则 其 会 交换 自身 输入 工作 包 和 输出 工作 包 的 和 角色， 但 如 果 
这 两 个 工作 包 也 被 填 满 ， 则 需要 借助 于 额外 的 溢出 处 理 机 制 。Ossia 等 人 的 解决 方案 是 继续 
进行 对 象 标记 ， 但 不 将 新 发 现 的 子 节点 添加 到 任何 输出 工作 包 中 ， 与 此 同时 ， 他 们 会 将 这 些 
对 象 所 对 应 的 卡 表 打上 脏 标记 。 回 收 器 稍 后 会 对 卡 表 进 行 扫 描 ， 进 而 找 出 所 有 包含 未 标记 子 
节点 的 已 标记 对 象 。 当 然 ， 也 可 像 Flood 等 人 [2001] 那样 将 溢出 对 象 链接 到 其 类 型 所 对 应 的 
类 结构 上 。 

多 通道 。Wu 和 Li[2007] 提出 了 一 种 针对 大 规模 处 理 器 的 负载 均衡 策略 ， 该 策略 无 需 依 
赖 昂贵 的 原子 操作 。 在 他 们 的 方案 中 ， 线 程 之 间 通 过 单 生产 者 、 单 消费 者 通道 (参见 算法 
13.34) 来 交换 标记 任务 ， 如 算法 14.7 所 示 。 对 于 包含 P 个 标记 线程 的 系统 ， 每 个 线程 都 会 
配备 己 - 1 个 队列， 其 实现 方式 为 环 状 缓冲 区 。 通 道中 值 为 aull 的 槽 意味 着 空 槽 。 基 于 这 一 
规则 ， 单 生产 者 、 单 消费 者 通道 无 需 任何 昂贵 的 原子 操作 。 对 于 处 理 器 数量 巨大 的 服务 器 ， 
该 算法 的 性 能 要 优 于 Flood 等 人 [2001] 的 工作 窃取 算法 。 


算法 14.7 基于 通道 的 并 行 追踪 


ı shared channel[NN] /* N X 个 单 生产 者 、 单 消费 者 通道 */ 
2 me + myThreadId 


1 acquireWork(): 


254 #l Žž 


for each k in Threads 


$ 
6 if not isEmpty(channel|k,me]) /* 线程 k 给 我 推送 了 工作 */ 
7 ref ¢- remove(channel[k,me]) 

8 push(myMarkStack, ref) /* 将 其 压 入 自身 标记 栈 中 */ 
9 return 

10 

n performWork(): 

12 loop 

13 if isEmpty(myMarkStack) 

14 return 

15 ref + pop(myMarkStack) 

16 for each fld in Pointers(ref) 

17 child + +*fld 

18 if child # null & not isMarked(child) 

19 if not generateWork(child) /* 推送 工作 到 其 他 线程 */ 

20 push(myMarkStack, child) 


2» generateWork(ref): 
23 for each j in Threads 


24 if needsWork(k) & not isFull(channel|me,¥j]) 
25 add(channel[me,3] 
26 return true 


27 return false 


与 Endo “ [1997] 所 使 用 的 策略 类 似 ， 该 算法 会 将 工作 任务 主动 推送 给 其 他 线程 。 当 某 
一 线程 i 生成 新 的 工作 任务 之 后 ， 它 首先 会 检查 是 否 存 在 某 一 线程 j 需 要 新 的 工作 ， 如 果 结 
果 为 真 ， 则 将 该 任务 添加 到 输出 通道 <i 一， 否则 ， 其 会 将 该 任务 压 人 自身 标记 栈 中 。 一 
旦 线程 i 的 标记 栈 为 空 ， 则 其 会 尝试 从 某 一 输入 通道 <j > i> 获取 工作 。 不 幸 的 是 ， 自 身 不 
产生 任何 新 标记 工作 的 线程 无 法 将 工作 分 摊 给 其 他 空闲 线程 ， 针 对 这 一 情况 ， 线 程 会 将 自身 
栈 底 的 工作 任务 推送 给 等 待 工作 的 线程 。Wu 和 Li 声称， 这 一 负载 均衡 策略 可 以 将 所 有 线程 
保持 在 繁忙 状态 。 通 道 长 度 的 选择 取决 于 线程 使 用 自身 标记 栈 的 繁忙 程度 ， 以 及 线程 是 否 需 
要 寻求 新 的 工作 。 如 果 线 程 不 会 频繁 寻求 工作 ， 则 应 选择 较 小 的 通道 长 度 。 对 于 包含 16 个 
Intel Xeon 处 理 器 的 服务 器 ， 通 道 长 度 为 1 或 者 2 时 表现 最 佳 。 他 们 所 使 用 的 结束 检测 机 制 
类 似 于 Kolodner 和 Petrank [1999] 采用 的 ， 但 为 避免 多 线程 同时 进行 结束 检测 时 可 能 存在 的 
问题 ， 他 们 指定 某 一 线程 作为 检测 线程 。 


14.6 并行 复 制 


并 行 标记 算法 所 遇 到 的 大 多 数 问题 都 会 在 并 行 复制 算法 中 出 现 ， 但 正如 我 们 曾经 提 到 过 
的 ， 两 者 之 间 的 最 大 区 别 在 于 ， 多 次 对 同一 对 象 进行 标记 通常 不 会 出 现 问题 ， 而 为 同一 对 象 创 
建 多 个 副本 则 通常 无 法 接受 。 我 们 将 依次 介绍 以 处 理 器 为 中 心 和 以 内 存 为 中 心 的 并 行 复制 策略 。 


14.6.1 ”以 处 理 器 为 中 心 的 并 行 复制 


处 理 器 之 间 的 工作 划分 。Blelloch 和 Cheng 在 副本 复制 回收 (replicating collection) [Blelloch 
and Cheng，1999 ; Cheng and Blelloch，2001 ; Cheng，2001] 中 实现 了 并 行 复制 。 副 本 复制 回收 
器 的 具体 细节 我 们 将 在 第 17 章 讨论 ， 简 而 言 之 ， 该 回收 器 属于 增 量 回收 器 或 者 并 发 回收 器 ， 该 
回收 器 会 在 赋值 器 执行 的 同时 复制 存活 对 象 ， 且 回收 器 特别 注意 将 可 能 会 在 回收 过 程 中 被 赋值 
器 并 发 更 新 的 域 修 正 到 正确 的 值 。 本 章 我 们 仅 讨 论 其 设计 中 的 并 行 部 分 。 

每 个 复制 线程 都 拥有 其 本 地 工作 栈 ，Blelloch 和 Cheng 声称 ， 与 基于 Cheney 队列 的 复 
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制 策略 相 比 ， 基 于 栈 的 算法 能 够 简化 复制 线程 之 间 的 同步 ， 且 其 碎片 化 程度 更 低 〈 稍 后 我 们 
将 介绍 基于 Cheney 队列 的 并 行 复制 回收 器 )。 在 回收 过 程 中 ,线程 会 周期 性 地 在 本 地 栈 和 全 
局 栈 中 交换 工作 ， 并 据 此 实现 负载 均衡 《如 算法 14.8 所 示 )。 我 们 曾经 提 到 ， 对 于 简单 的 共 
享 栈 ， 其 压 入 和 弹出 操作 必须 使 用 同步 操作 ， 同 时 也 不 存在 一 种 类 似 于 Fetchanaaaa 原 语 的 
操作 可 以 原子 化 地 在 增加 /减少 栈 指针 的 同时 插入 /弹出 元 素 。 我 们 当然 可 以 使 用 锁 或 者 基 
于 LoadLinked/StoreConditionally 操作 实现 顺序 访问 ， 但 除 此 之 外 ， 我 们 也 可 基于 这 些 指 
令 实现 在 同一 时 间 内 ， 所 有 线程 都 只 向 栈 中 压 人 元 素 ， 或 者 都 只 从 栈 中 弹出 元 素 ， 即 : BEA 
所 有 线程 都 只 增加 栈 指针 ， 要 么 都 只 减少 栈 指针 。 一 旦 线程 成 功 移动 了 栈 指 针 ( 可 能 涉及 车 
干 个 槽 )， 则 该 线程 对 这 些 栈 槽 的 访问 将 不 存在 任何 竞争 风险 。 


算法 14.8 Blelloch 和 Cheng[2001] 的 并 行 复制 算法 


shared sharedStack /* 共享 工作 栈 */ 
myCopyStack|k] /* 本 地 工作 栈 最 多 包含 k 个 槽 */ 
sp 人 -0 /* 本 地 栈 指针 */ 


enterRoon() /* 进入 弹出 工作 空间 */ 
for i + Itok 


1 
2 
3 
4 
s while not terminated() 
6 
7 
8 if isLocalStackEmpty() 
9 


acquireWork() 
w if isLocalStackEmpty() 
u break 
2 performWork() 
3 transitionRooms() 
u generateWork() 
5 if exitRoom() /* 离开 弹出 工作 空间 */ 
16 terminate() 


8 ~acquireWork(): 


9 sharedPop() /* 从 共享 栈 中 迁移 工作 到 本 地 栈 */ 
20 

a performWork(): 

2 ref + localPop() 

z scan(ref) /* 参见 算法 4.2 */ 
24 

% generateWork(): 

26 sharedPush() /* 将 本 地 栈 中 的 工作 迁移 到 共享 栈 */ 
27 

» isLocalStackEmpty() 

29 return sp = 0 

a localPush(ref): 

32 myCopyStack[sp++] + ref 


u localPop(): 


35 return myCopyStack|--sp] 

y sharedPop(): /* 从 共享 栈 中 迁移 工作 到 本 地 栈 */ 
38 cursor + FetchAndAdd(&sharedStack, 1) /* 尝试 从 共享 栈 中 获取 元 素 */ 
» if cursor > stackLimit /* 共享 栈 为 空 */ 
40 FetchAndAdd(&sharedStack, —1) /* HER */ 
41 else 


2 myCopyStack|[sp++] + cursor(0] /* 将 工作 迁移 到 本 地 栈 */ 
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u sharedPush(): /* 将 本 地 栈 中 的 工作 迁移 到 共享 栈 */ 
45 cursor + FetchAndAdd(ssharedStack, —sp) — sp 

6 for i ¢ 0 to sp-1 

v cursor[i] + myCopyStack[i] 

48 sp = 0 


Blelloch 和 Cheng[1999] 引入 了 “工作 空间 ”(room) 这 一 概念 来 控制 线程 对 共享 栈 的 访 
问 ， 他 们 规定 : 在 任意 时 刻 ， 弹 出 工作 空间 (push room) 和 压 人 工作 空间 ( pop room) 中 至 
少 有 一 个 必须 为 空 ， 其 整体 工作 流程 如 算法 14.9 所 示 。 在 回收 内 部 循环 的 每 次 迭代 过 程 中 ， 
线程 首先 进入 弹出 工作 空间 ， 然 后 处 理 固 定 的 工作 量 ， 这 些 工 作 既 可 能 来 自 于 线程 本 地 栈 ， 
也 可 能 是 线程 使 用 Fetchanaada 操作 从 共享 栈 中 获取 的 。 线 程 会 将 自身 新 生成 的 工作 压 人 本 
地 栈 。 处 理 结束 后 ， 线 程 将 离开 弹出 工作 空间 并 尝试 进入 压 人 工作 空间 ， 但 在 此 之 前 ， 其 必 
须 等 待 所 有 其 他 线程 都 离开 弹出 工作 空间 。 第 一 个 进入 压 人 工作 空间 的 线程 将 关闭 gate 变 
量 以 避免 其 他 线程 进入 弹出 工作 空间 。 在 进入 压 和 人 工作 空间 之 后 ， 线 程 将 把 本 地 工作 栈 中 的 
所 有 元 素 释放 到 共享 栈 ， 该 过 程 仍 需 使 用 Fetchanaaaa 操作 在 共享 栈 上 预 留 空间 。 最 后 一 个 
离开 压 人 工作 空间 的 线程 将 打开 gate 变量 。 

该 策略 的 缺陷 在 于 ， 所 有 尝试 进入 压 人 工作 空间 的 线程 都 必须 等 待 所 有 位 于 弹出 工作 空 
间 的 线程 完成 其 正在 处 理 的 任务 。 与 获取 或 者 释放 新 工作 相 比 ， 将 对 象 着 为 灰色 的 工作 量 相 
当 可 观 ， 且 线程 在 进入 压 入 阶段 之 前 ， 必 须 等 待 所 有 其 他 线程 都 完成 弹出 阶段 的 着 色 工 作 。 
如 果 各 线程 处 理 着 色 工 作 的 时 间 差 异 较 大 ， 则 会 造成 很 大 的 处 理 器 资源 浪费 。 更 加 富有 弹性 
的 抽象 可 能 是 允许 线程 在 离开 弹出 工作 空间 之 后 不 进入 压 人 工作 空间 ， 此 时 线程 将 处 理 自 身 
新 生成 的 、 位 于 本 地 工作 栈 中 的 灰色 对 象 ， 这 一 过 程 无 需 与 共享 栈 发 生 任何 交互 ， 也 无 需 进 
入 任意 一 个 工作 空间 。 这 一 策略 极 大 地 提高 了 弹出 工作 空间 为 空 的 概率 ， 从 而 减少 了 线程 在 
进入 压 人 工作 空间 之 前 的 期 望 等 待 时 间 。 

Blelloch 和 Cheng 的 原始 工作 空间 抽象 算法 支持 简单 直接 的 结束 检测 : 当 线程 离开 压 人 
工作 空间 之 后 ， 其 自身 工作 栈 必然 为 空 ， 因 而 一 旦 最 后 一 个 离开 压 和 工作 空间 的 线程 发 现 共 
享 栈 为 空 ， 则 意味 着 该 阶段 结束 。 但 在 更 加 松散 的 抽象 策略 中 ， 回 收 线程 可 能 会 在 工作 空间 
之 外 处 理 回收 工作 ， 因 而 回收 器 必须 为 共享 栈 维护 一 个 全 局 计数 器 ， 该 计数 器 的 值 表示 有 多 
少 线程 正在 处 理 从 共享 栈 中 获取 的 工作 。 最 后 一 个 离开 弹出 工作 空间 的 线程 必须 检测 该 计数 
器 是 否 为 零 以 及 共享 栈 是 否 为 空 ， 如 果 结 果 为 真 ， 则 意味 着 该 阶段 结束 。 


算法 14.9 ”基于 工作 空间 的 压 入 / 弹出 同步 


shared gate ¢ OPEN 
shared popClients /* 弹出 工作 空间 中 的 线程 数量 */ 
shared pushClients /* 压 入 工作 空间 中 的 线程 数量 */ 


enterRoom(): 
while gate OPEN 
/* 等 待 */ 
FetchAndAdd(&popClients, 1) /* 试 着 开始 从 共享 栈 中 弹出 工作 */ 
while gate # OPEN 
w FetchAndAdd(&popClients, —1) /* 未 进入 成 功 ， 撤 销 变更 */ 
u while gate # OPEN 
2 /* 等 待 */ 
13 FetchAndAdd(&popClients, 1) /* Bik */ 


oe a | 
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1 transitionRooms(): 


7 gate + CLOSED 

18 FetchAndAdd(&pushClients, 1) /* 从 弹出 状态 切换 到 压 入 状态 */ 
19 FetchAndAdd(&popClients, —1) 

20 while popClients > 0 


a /* 等 待 其 他 线程 离开 弹出 工作 空间 */ 


» exitRoom(): 

24 pushers ¢ FetchAndAdd(&pushClients, —1) — 1 /* 停止 压 入 */ 
5 if pushers = 0 /* 本 线程 最 后 一 个 离开 压 入 工作 空间 ， 执 行 结束 检测 */ 
26 if isEmpty(sharedStack) /* 所 有 灰色 对 象 都 已 处 理 完 毕 */ 
z gate + OPEN 

28 return true 

2 else 

30 gate ¢ OPEN 

31 return false 


对 象 复制 的 并 行 化 。 为 确保 单个 对 象 仅 会 被 一 个 线程 复制 ， 线 程 之 间 必 须 争夺 待 复制 对 
象 并 在 其 旧版 本 的 头 部 填充 转发 地 址 。 线 程 复制 对 象 的 方式 取决 于 它们 之 间 是 否 共享 同一 个 
分 配 区 域 。 共 享 分 配 区 域 可 以 减少 内 存 浪费 ， 但 线程 在 执行 分 配 时 便 必 须 使 用 原子 操作 。 在 
使 用 共享 分 配 区 域 的 策略 下 ，Blelloch 和 Cheng[1999] 要 求 线程 以 竞争 的 方式 向 对 象 转发 指 
针 域 中 写 入 某 个 意味 着 “ 待 复制 ”的 值 ， 胜 出 的 线程 将 有 权 进 行 对 象 的 复制 并 将 新 副本 的 地 
址 写 入 老 对 象 的 转发 指针 域 ， 而 竞争 失败 的 线程 则 必须 等 待 转 发 地 址 模 中 的 值 成 为 一 个 有 效 
指针 。 另 外 ， 如 果 线 程 可 以 预知 新 对 象 的 地 址 (例如 将 对 象 复制 到 本 地 分 配 缓冲 区 )， 则 线 
程 可 以 在 执行 复制 之 前 以 竞争 的 方式 写 和 人 转发 地 址 。 

Marlow 等 [2008] 在 GHC Haskell 系统 中 比较 了 两 种 复制 策略 。 其 第 一 种 复制 策略 是 使 
用 共享 分 配 区 域 : 线程 在 复制 对 象 之 前 首先 判断 该 对 象 是 否 已 被 转发 ， 如 果 结 果 为 真 ， 则 返 
回 其 转发 地 址 ， 和 否则 ， 其 将 尝试 使 用 compareandswap 操作 将 busy 值 写 人 该 对 象 的 转发 指针 
域 ， 且 busy 值 应 当 能 够 与 该 域 中 可 能 存在 的 正常 值 (例如 锁 或 者 哈 希 值 ) 或 者 有 效 转 发 地 址 
相 区 分 ; 如 果 该 操作 成 功 ， 则 线程 将 复制 该 对 象 、 写 人 转发 地 址 并 返回 目标 空间 中 新 副本 的 
地 址 ; WARE A busy 值 的 compareandswap 操作 失败 ， 则 线程 将 陷入 自 旋 ， 直 到 竞争 胜出 的 
线程 完成 该 对 象 的 复制 。 第 二 种 策略 是 使 用 线程 本 地 分 配 缓冲 区 : 线程 先 乐观 地 将 对 象 复制 
到 本 地 分 配 缓冲 区 ， 然 后 再 使 用 Compareandswap 操作 更 新 转发 地 址 ， 如 果 compareAndswap 
操作 失败 ， 则 复制 操作 必须 撤销 《〈 例 如， 将 线程 本 地 分 配 缓冲 区 的 空闲 指针 恢复 为 原 有 值 )。 
Marlow 等 发 现 后 一 种 策略 的 性 能 稍 高 ， 其 原因 在 于 竞争 极 少 出 现 。 同 时 他 们 建议 ,在 第 二 
种 场景 下 ， 如 果 对 象 不 可 修改 且 可 以 容忍 少许 重复 ， 则 在 写 和 人 转发 地 址 时 可 以 使 用 非 同 步 操 
作 来 兰 代 原子 操作 。 

本 章 曾 经 提 到 ， 在 Flood 等 人 [2001] 所 实现 的 分 代 回 收 器 中 ， 其 年 老 代 使 用 标记 一 整 
理 算法 管理 ,年轻 代 使 用 复制 式 算法 管理 ， 且 两 种 算法 都 实现 了 并 行 化 。 我 们 已 经 介绍 过 
其 并 行 标记 的 实现 机 制 ， 此 处 我 们 将 介绍 其 并 行 复制 算法 。 用 于 记录 待 扫 描 对 象 的 可 窃取 
工作 队列 将 在 此 处 得 到 复 用 ， 但 与 并 行 标 记 相 比 ， 并 行 复制 需要 额外 关注 两 个 问题 : 一 是 
如 何 将 并 行 复制 过 程 中 由 于 内 存 分 配 所 产生 的 竞争 最 小 化 ， 二 是 如 何 确保 每 个 存活 对 象 仅 
被 复制 一 次 。 对 于 前 一 个 问题 ，Flood 等 的 解决 方案 是 使 用 本 地 分 配 缓冲 区 (参见 7.7 节 )， 
年 轻 代 内 部 的 存活 对 象 复制 以 及 从 年 轻 代 到 年 老 代 的 提升 均 采用 这 一 策略 ; 而 对 于 后 一 个 
问题 ， 线 程 在 复制 过 程 中 首先 投机 性 地 将 存活 对 象 复制 到 本 地 分 配 缓冲 区 ， 然 后 尝试 使 用 
CompareAndswap 操作 更 新 其 转发 地 址 ， 如 果 该 操作 成 功 ， 则 意味 着 复制 成 功 ， 和 否则 ， 其 将 返 


[292] 


258 F 14% 


回 已 由 其 他 线程 设置 的 转发 地 址 。 

本 书 多 次 提 到 ， 程 序 的 局 部 性 对 其 性 能 会 产生 很 大 影响 。 对 于 使 用 非 一 致 内 存 架构 的 处 
理 器 而 言 ， 局 部 性 作用 将 更 加 明显 ， 因 而 在 这 一 情况 下 ， 理 想 的 对 象 迁移 策略 应 当 是 将 对 象 
靠近 最 频繁 访问 它们 的 处 理 器 布置 。 现 代 操 作 系统 大 都 支持 标准 的 内 存 亲 和 策略 ( memory 
affinity policie)， 该 策略 将 决定 把 哪些 内 存 地 址 预 留 给 哪个 处 理 器 。 典 型 的 内 存 关联 策略 有 
两 种 : 一 种 是 首次 访问 ( first-touch) 策略 ， 也 称 本 地 (local) 策略 ， 此 时 线程 所 申请 的 内 存 
将 在 其 所 运行 的 处 理 器 所 关联 的 内 存 中 分 配 ; 另 一 种 是 轮 循 (round-robin) 策略 ， 即 线程 所 
需 的 内 存 将 在 所 有 处 理 器 所 关联 的 内 存 中 分 配 。 支 持 处 理 器 亲 和 人 性 (processor-affinity) 的 线 
程 调度 器 会 尝试 将 线程 调度 到 其 上 一 次 所 运行 的 处 理 器 上 执行 。Ogasawara [2009] 发 现 ， 即 
使 对 于 使 用 本 地 处 理 器 亲 和 策 略 的 系统 ， 如 果 内 存 管理 器 无 法 意识 到 其 运行 在 非 一 致 内 存 架 
构 之 上 ， 则 其 依然 可 能 无 法 将 对 象 分 配 到 合理 的 位 置 。 如 果 本 地 分 配 缓冲 区 小 于 一 页 , 日 其 
以 线性 方式 分 发 给 各 线程 ， 则 某 些 线程 可 能 需要 在 远 端 内 存 中 执行 分 配 ， 特 别 是 在 操作 系统 
使 用 大 页 表 (16MB) 来 减少 物理 地 址 映射 开销 的 场景 下 。 另 外 ， 回 收 器 在 移动 对 象 时 通常 
不 会 考虑 其 内 存 亲 和 性 。 

相 比 之 下 ，Ogasawara 所 设计 的 内 存 管 理 器 可 以 感知 到 其 正 运行 在 非 一 致 内 存 系统 中 ， 
此 时 内 存 管理 器 会 以 一 页 或 者 多 页 为 单位 将 堆 划 分 为 段 (segment)， 且 每 一 段 都 会 映射 到 
一 个 处 理 器 中 。 在 赋值 器 或 者 回收 器 申请 内 存 时 ， 分 配器 会 优先 从 首选 处 理 器 (preferred 
processor) 对 应 的 段 中 分 配 : 对 于 赋值 器 而 言 ， 首 选 处 理 器 应 当 是 该 线程 当前 所 运行 的 处 理 
器 ， 而 对 于 回收 器 而 言 ， 如 果 对 象 原本 就 与 某 一 处 理 器 相关 联 ， 则 回收 线程 将 把 对 象 优 先 迁 
移 到 该 处 理 器 所 对 应 的 段 中 。 我 们 并 不 能 保证 分 配对 象 的 线程 将 是 访问 该 对 象 最 频繁 的 线 
程 ， 因 而 回收 器 将 使 用 支配 线程 信息 (dominant-thread information) 来 确定 每 个 对 象 的 首选 
处 理 器 。 首 先 ， 对 于 直接 被 赋值 器 线程 栈 所 引用 的 对 象 ， 其 首选 处 理 器 应 当 是 执行 该 线程 的 
处 理 器 ， 且 赋值 器 线程 应 当 周 期 性 地 更 新 自身 所 对 应 的 首选 处 理 器 。 其 次 ， 回 收 器 可 以 使 用 
对 象 的 锁 相 关 信 息 来 判定 其 所 对 应 的 支配 线程 。 编 程 语言 中 的 锁 相 关 语 义 通 常会 在 对 象 头 
部 的 某 个 字 中 保留 持 有 锁 的 线程 身份 标识 ， 线程 0 线程 | 线程 2 
尽管 该 信息 仅 能 反映 出 最 后 一 个 对 该 对 象 
加 锁 的 线程 ， 但 是 由 于 许多 对 象 都 不 会 逃 
逸 出 其 所 诞生 的 线程 (即使 对 于 被 上 锁 的 
对 象 也 不 例外 )， 因 而 该 方案 足以 作为 获取 
对 象 首选 处 理 器 的 一 个 近似 。 最 后 ， 回 收 
器 可 以 将 父 对 象 的 首选 处 理 器 传递 给 其 子 图 14.4 支配 线程 追踪 。 为 区 分 起 见 ， 我 们 将 线程 





节点 。 在 图 14.4 所 示 的 案例 中 ， 回 收 器 使 pee Sone Ae eee pe eee 
用 3 个 标记 线程 ， 为 简化 问题 ， 我 们 假定 eee 
它们 均 运 行 在 其 首选 处 理 器 之 上 ， 且 每 个 对 象 的 颜色 预示 了 其 将 被 复制 到 哪个 处 理 器 
处 理 器 以 不 同 的 颜色 区 分 。 线 程 TO 持 有 对 EER NEN TRR 
象 X 的 锁 ， 即 其 已 经 将 自身 线程 编号 写 人 T iohiesdininciebobieaiiaid 


了 对 象 X 的 头 部 。 我 们 将 图 中 的 每 个 对 象 与 其 首选 处 理 器 着 为 相同 的 颜色 ， 回 收 器 会 将 每 
个 对 象 复制 到 其 首选 处 理 器 的 本 地 分 配 缓冲 区 中 。 


14.6.2 ”以 内 存 为 中 心 的 并 行 复制 技术 
每 线程 来 源 空 间 与 目标 空间 。 复 制式 回收 算法 天 然 支持 依照 对 象 位 置 来 划分 工作 ， 由 此 
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我 们 可 以 设计 出 一 种 简单 的 并 行 复制 策略 ， 即 为 每 个 回收 线程 设置 本 地 来 源 空 间 与 目标 空 
间 ， 并 使 用 Cheney 式 复 制 策略 [Halstead，1984]。 在 该 策略 中 ， 每 个 线程 都 会 负责 一 段 连 
续 内 存 空间 的 扫描 ， 但 其 复制 对 象 与 设置 转发 指针 的 操作 仍 会 与 其 他 线程 产生 竞争 。 这 一 简 
单 策略 存在 两 个 明显 缺陷 : 第 一 ， 在 某 一 处 理 器 完成 所 有 任务 之 后 ， 其 他 处 理 器 仍 可 能 处 于 
工作 状态 ， 从 而 不 利于 处 理 器 之 间 的 负载 均衡 ; 第 二 ， 有 可 能 存在 一 个 线程 的 目标 空间 溢 
出 、 但 其 他 线程 仍 存 在 可 用 目标 空间 的 情况 。 

块 结构 堆 。 另 一 种 解决 方案 是 对 目标 空间 进行 更 细 粒 度 的 划分 ， 线 程 则 通过 竞争 的 方式 
获取 待 扫描 内 存 块 以 及 容纳 存活 对 象 的 内 存 块 。Imai 和 Tick[1993] 将 堆 划 分 为 较 小 的 、 固 
定 大 小 的 内 存 片 ， 并 且 每 个 线程 会 获取 专属 的 待 扫描 内 存 片 以 及 目标 缓冲 区 内 存 片 ， 其 复制 
过 程 基于 Cheney 指针 而 非 显 式 工作 列表 。 当 目标 内 存 片 被 填 满 时 ， 线 程 会 将 其 释放 到 全 局 
工作 池 中 ， 以 便 其 他 线程 继续 对 其 进行 扫描 ， 同 时 其 会 从 空闲 内 存 管理 器 申请 一 个 新 的 内 存 
片 来 作为 复制 目标 缓冲 区 。 该 策略 使 用 两 种 机 制 来 确保 负载 均衡 。 第 一 ， 用 作 复 制 目标 缓冲 
区 的 内 存 片 (他们 将 其 称 作 “ 堆 扩展 单位 ”) 通常 较 小 ( 仅 256 个 字 )。 如 果 在 内 存 片 空间 较 
小 的 情况 下 使 用 线性 分 配 ， 内 存 碎片 问题 可 能 会 十 分 严重 ， 因 为 平均 每 个 内 存 片 末端 会 浪费 
掉 半 个 对 象 的 空间 。 为 解决 这 一 问题 ，Imai 和 Tick 使 用 页 簇 分 配 (参见 第 7 章 ) 策略 来 分 
配 小 对 象 ， 因 此 每 个 线程 将 同时 拥有 多 个 目标 缓冲 区 内 存 片 。 大 对 象 则 会 通过 加 锁 的 方式 复 
制 到 共享 缓冲 区 。 

第 二 ， 线 程 之 间 进 行 负载 均衡 的 粒度 会 比 内 存 片 更 小 。 每 个 内 存 片 将 被 进一步 划分 为 更 
小 的 内 存 块 (他 们 称 之 为 “负载 分 布 单元 ”)， 其 大 小 通常 为 32 个 字 。 内 存 块 越 小 ,加 速效 
果 越 明显 。 在 算法 执行 过 程 中 ， 每 个 线程 在 扫描 新 的 内 存 块 之 前 ， 其 会 放弃 某 些 尚未 扫描 
的 内 存 块 并 将 其 释放 到 全 局 工作 池 中 ， 其 过 程 如 下 : 在 扫描 完 一 个 槽 并 增加 扫描 指针 后 ， 线 
程 会 检查 后 者 是 否 到 达 当 前 扫描 内 存 块 的 边界 ; 如 果 结 果 为 真 ， 有 旦 下 一 个 待 扫描 对 象 小 于 一 
个 内 存 块 的 大 小 ， 则 线程 会 将 扫描 指针 移动 到 当前 目标 内 存 块 的 起 始 地 址 。 这 一 策略 不 但 有 
助 于 减少 线程 之 间 从 全 局 工作 池 中 获取 内 存 块 时 所 产生 的 竞争 ， 而 且 可 以 避免 将 所 有 灰色 对 
象 都 集中 在 目标 内 存 块 中 。 如 果 线 程 刚 刚 扫描 过 的 内 存 块 与 目标 内 存 块 之 间 存 在 未 扫描 内 存 
块 ， 线 程 会 将 其 释放 到 全 局 工作 池 中 ， 以 便 其 他 线程 处 理 。 图 14.5 展示 了 算法 在 这 两 种 情 
况 下 的 执行 过 程 : 在 图 14.5a 中 ,线程 的 待 扫描 内 存 块 与 目标 内 存 块 位 于 同一 个 内 存 片 中 ; 
而 在 图 14.5b 中 ， 它 们 位 于 不 同 的 内 存 片 中 。 不 论 在 哪 种 情况 下 ， 除 了 最 后 一 个 未 扫描 内 存 
块 ( 即 目标 内 存 块 ) 之 外 ， 其 他 尚未 扫描 的 内 存 块 都 将 被 释放 到 全 局 工作 池 中 。 

闪存 所 chunk 


移动 扫描 
| 指针 之 前 | 
scan free scan 
移动 扫描 4 ma... 
EA ||| 指针 之 后 ; XA Y | 
scand free jand = 


a) 扫描 指针 与 空闲 指 b) 扫描 指针 与 空闲 指针 位 于 不 同 内 存 片 中 
针 位 于 相同 内 存 片 中 


图 14.5 Imai 和 Tick[1993] 并 行 复制 回收 器 中 的 内 存 片 管理 ， 图 中 展示 了 当 线程 完成 一 个 内 存 块 的 扫描 
之 后 扫描 指针 的 变化 。 带 斜 线 的 内 存 块 将 被 释放 到 全 局 工作 池 中 


在 线程 扫描 完 一 个 内 存 块 之 后 ， 如 果 下 一 个 对 象 大 于 一 个 内 存 块 但 小 于 一 个 内 存 片 ， 则 
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线程 将 其 扫描 指针 移动 到 目标 内 存 片 的 起 始 地 址 ; 而 对 于 更 大 的 对 象 ， 线 程 将 继续 对 其 扫 
描 ， 并 在 复制 完成 后 立即 将 其 释放 到 全 局 工作 池 中 。 


图 14.6 展示 了 内 存 块 的 状态 及 
其 变迁 过 程 9。 处 于 空闲 ( freelist)、 
待 扫描 (scanlist)、 完 成 (done) 状态 
的 内 存 块 均 位 于 全 局 工作 池 中 ， 其 他 
状态 的 内 存 块 则 正 由 线程 进行 本 地 处 
理 。 状 态 变 迁 箭头 上 标明 了 内 存 块 在 
发 生 状 态 变 迁 时 的 颜色 。 在 Imai 和 





Tick 的 策略 中 ， 只 有 如 下 3 个 时 刻 才 
有 可 能 发 生 状态 转换 : scan 指针 触 达 
扫描 内 存 块 的 末端 时 、copy 指针 触 达 
目标 内 存 块 的 末端 时 、scan 指针 与 
free 指针 重合 时 (此 时 扫描 内 存 块 与 
目标 内 存 块 相同 ， 即 “别名 ”)。 例 如 ， 






图 14.6 Imai 和 Tick[1993] 回收 器 中 内 存 块 的 状态 及 其 变 
迁 过 程 。 如 果 内 存 块 位 于 全 局 工作 池 中 ， 其 必然 
处 于 边框 较 粗 的 三 种 状态 之 一 ， 而 正在 被 线程 处 
理 的 内 存 块 必然 处 于 边框 较 细 的 三 种 状态 之 一 

目标 内 存 块 必 须 存 在 一 定 的 空闲 内 存 ， 以 便 将 可 达 


对 象 复制 到 其 中 ， 因 而 所 有 进入 复制 状态 的 内 存 块 必然 未 被 填 满 。 表 14.1 展示 了 扫描 内 存 
块 与 目标 内 存 块 在 不 同情 况 下 的 状态 变迁 。 例 如 ， 如 果 目 标 内 存 块 同 时 包含 灰色 对 象 与 空闲 
AF (GD) 且 非 别名 的 扫描 内 存 块 已 经 完全 成 为 黑色 〈( 国 )， 回 收 线程 将 把 扫描 内 存 块 的 状态 
变更 为 完成 ， 同 时 继续 对 目标 内 存 块 进行 扫描 ， 此 时 扫描 内 存 块 与 目标 内 存 块 将 成 为 同一 个 


内 存 块 ， 即 两 者 为 别名 关系 。 


表 14.1 Imai 和 Tick 回收 器 中 内 存 块 的 状态 变迁 逻辑 


名 (继续 扫描 ) 


别名 一 复制 
待 扫描 一 扫描 
别名 一 复制 
待 扫描 一 扫描 


别名 一 扫描 
空闲 一 复制 


别名 一 扫描 
空闲 一 复制 
别名 一 完成 
E] 空闲 一 复制 
待 扫描 一 扫描 


口 


扫描 内 存 块 (scan block) 
时 或 到 加 


i 扫描 一 完成 

(继续 扫描 ) oa 
扫描 一 完成 

(继续 扫描 ) WE 





(不 可 能 出 现 ) (不 可 能 出 现 ) 
52 os 
空闲 ~ 复制 er 

空闲 -复制 
(不 可 能 出 现 ) (不 可 能 出 现 ) 
(不 可 能 出 现 ) (不 可 能 出 现 ) 


Marlow 等 [2008] 发 现 ， 在 GHC Haskell 中 ， 如 果 所 需 处 理 的 工作 较 少 ， 这 种 以 一 次 扫 
描 一 个 完整 内 存 块 的 负载 均衡 技术 可 能 导致 回收 器 过 度 串 行 化 。 例 如 ， 一旦 某 一 线程 将 其 根 
集合 全 部 复制 到 单个 内 存 块 中 ， 则 只 有 当 其 扫描 指针 与 空闲 指针 之 间 的 距离 超过 一 个 内 存 块 


© Siegwart 和 Hirzel [2006] 最 先 提 出 了 这 种 清晰 的 记 法 。 
O 即 作为 对 象 复制 的 目标 空间 。 一 一 译 者 注 
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时 ， 该 线程 才 有 可 能 将 回收 工作 分 摊 给 其 他 线程 。 针 对 这 一 问题 ， 他 们 的 解决 方案 是 ， 在 如 
下 三 种 情况 下 强制 将 半 满 的 内 存 块 释放 到 全 局 工作 池 中 : 全 局 工作 池 的 大 小 小 于 某 一 阅 值 ; 
@ 线 程 目标 内 存 块 中 的 工作 足够 多 ， 值 得 将 其 释放 到 全 局 工作 池 中 ; @ 在 线程 申请 新 内 存 块 
时 ， 其 正在 扫描 的 内 存 块 拥有 足够 多 的 工作 量 。 当 释放 工作 的 最 小 贱 值 为 128 个 字 时 ， 回 收 
器 表现 最 佳 〈( 该 结果 是 针对 大 多 数 基准 测试 程序 而 言 的 ， 但 某 些 基准 程序 在 阔 值 更 小 时 表现 
最 佳 )。 在 该 策略 下 ， 如 果 线 程 不 断 申 请 新 的 内 存 块 用 作 目 标 内 存 块 ， 但 释放 到 全 局 工作 池 
中 的 内 存 块 却 始终 未 被 填 满 ， 则 系统 的 内 存 碎片 化 程度 将 较为 严重 。 为 避免 这 一 问题 ， 线 程 
在 申请 扫描 内 存 块 时 将 优先 获取 半 满 而 非 全 满 的 待 扫描 内 存 块 。 在 Marlow 等 的 设计 中 ， 有 
两 个 问题 会 进一步 加 剧 内 存 碎片 问题 ,一 是 较 大 的 对 象 可 能 无 法 较 好 地 匹配 当前 内 存 块 ， 二 
是 他 们 将 每 个 分 代 进 一 步 划 分 为 多 个 阶 (参见 第 9 章 )， 但 他 们 发 现 ， 尽 管 如 此 ， 内 存 碎片 
的 总 量 通常 也 不 会 超过 内 存 总 量 的 1%。 

上 述 并 行 复制 算法 天 然 遵从 广度 优先 顺序 。 广 度 优先 复制 顺序 趋向 于 将 父子 节点 分 离 ， 
反而 会 将 没有 直接 联系 的 对 象 放置 在 一 起 ， 因 而 其 会 降低 赋值 器 局 部 性 (参见 4.2 节 )。 相 比 
之 下 ， 深 度 优先 复制 顺序 会 带 来 较 高 的 赋值 器 局 部 性 ， 但 其 需要 额外 的 栈 来 实现 复制 控制 。 
Moon[1984] 以 及 Wilson 等 [1991] 提出 了 层次 分 解 (hierarchical decomposition) 复制 算法 ， 
该 算法 可 以 在 不 需要 辅助 栈 的 情况 下 实现 准 深度 优先 复制 顺序 ， 但 该 算法 的 不 足 之 处 在 于 其 
是 串 行 的 。Siegwart 和 Hirzel [2006] 将 层次 分 解 算法 引入 到 Imai 和 Tick 并 行 回收 器 中 ， 并 
将 其 应 用 在 IBM J9 Java 虚拟 机 年 轻 代 的 管理 中 9。 

在 串 行 层次 分 解 回收 器 [Wilson 等 ，1991] 中 ， 尚 未 完成 扫描 的 内 存 块 会 关联 两 个 指针 ， 
即 局 部 扫描 指针 和 空闲 指针 。 类 似 地 ，Imai 和 Tick 也 为 每 个 内 存 块 关联 了 扫描 指针 与 空闲 
指针 ， 因 此 并 行 复制 算法 实现 层次 遍历 顺序 的 关键 便 在 于 如 何 正确 选择 下 一 个 扫描 内 存 块 。 
与 上 述 两 种 回收 器 类 似 ，Siegwart 
和 Hirzel 也 倾向 于 选择 目标 内 存 块 
作为 下 一 个 扫描 内 存 块 ， 即 尽量 保 
持 两 者 之 间 的 别名 关系 8， 而 Ossia 
等 [2002] 的 灰色 工作 包 策 略 (参见 
14.5 节 ) 则 采用 完全 相反 的 方式 ， 
他 们 和 希望 回收 线程 拥有 不 同 的 输入 
和 输出 工作 包 。Imai 和 Tick 判定 
目标 内 存 块 与 扫描 内 存 块 是 否 可 以 ”图 14.7 Siegwart 和 Hirzel 回收 器 中 内 存 块 的 状态 及 其 变迁 





重合 的 时 机 是 在 完成 一 个 内 存 块 的 过 程 。 如 果 内 存 块 位 于 全 局 工作 池 中 ， 其 必然 处 于 

扫描 之 后 ， 而 Siegwart 和 Hirzel 则 边框 较 粗 的 三 种 状态 之 一 ， 而 正在 被 线程 处 理 的 内 

是 在 完成 一 个 灰色 覃 的 扫描 之 后 立 存 块 必然 处 于 边框 较 细 的 三 种 状态 之 一 。 回 收 线程 

即 执行 这 一 判定 ， 该 策略 可 以 确保 会 从 全 局 待 扫描 内 存 块 集合 中 获取 新 的 内 存 块 ， 以 

线程 在 遍历 对 象 图 时 遵从 层次 分 解 用 于 扫描 

顺序 。 Siegwart and Hirzel [2006],doi: 10 . 1145/1133956 . 1133964 . 
图 14.7 展示 了 在 该 策略 下 内 存 @ 2006 Association for Computing Machinery，Inc.， 经 许可 后 转载 


O 年 老 代 是 由 并 发 标记 -清扫 回收 器 管理 ， 该 回收 器 会 偶尔 执行 万 物 静 止 式 的 整理 算法 。 
O 在 他 们 所 设计 的 分 代 回收 器 中 ， 每 个 回收 线程 会 同时 持 有 两 个 目标 内 存 块 ， 分 别 用 作 年 轻 代 对 象 和 年 老 代 对 
象 的 目标 空间 。 在 任意 时 刻 ， 两 个 复制 内 存 块 最 多 只 有 一 个 可 以 与 扫描 内 存 块 保持 别名 关系 。 
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块 的 状态 及 其 变迁 。 与 图 14.6 类 似 ， 处 于 空闲 、 待 扫描 、 完 成 状态 的 内 存 块 均 位 于 全 局 工 
作 池 中 ， 其 他 状态 的 内 存 块 则 正 由 线程 进行 本 地 处 理 。 状 态 变迁 箭头 上 标明 了 内 存 块 在 发 生 
状态 变迁 时 的 颜色 。 表 14.2 展示 了 扫描 内 存 块 与 目标 内 存 块 在 不 同情 况 下 的 状态 变迁 。 例 
如 ， 当 目标 内 存 块 既 包 含 灰 色 槽 又 包含 空 闪 内 存 ( 虐 或 吕 )、 且 非 别 名 扫描 内 存 块 包含 灰色 权 
时 ,线程 将 把 扫描 内 存 块 释放 到 全 局 工作 池 中 ， 同 时 继续 对 目标 内 存 块 进行 扫描 ， 此 时 目标 
内 存 块 与 扫描 内 存 块 将 成 为 别名 关系 。 因 此 ，Siegwart 和 Hirzel 的 状态 转换 体系 可 以 认为 是 
Imai 和 Tick[1993] 的 超 集 。 
表 14.2 Siegwart 和 Hirzel 回收 器 中 内 存 块 的 状态 变迁 逻辑 





复制 内 存 块 扫描 内 存 块 (scan block) 
| m 
| FHE FSSR 
Oke (继续 扫描 ) 复制 一 别名 复制 一 别名 
别名 一 复制 扫描 一 完成 
ele 待 扫 撒 - 扫 摘 — FSE 
iia soni SE eaters 
ET 空间 一 复制 eis 
TET 
m TET (不 可 能 出 现 ) (不 可 能 出 现 ) 





待 扫描 一 扫描 


Siegwart and Hirzel [2006], doi: 10.1145/1133956.1133964. 
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在 并 行 复制 算法 中 ， 回 收 线程 从 全 局 工作 池 中 获取 扫描 内 存 块 的 操作 可 能 会 存在 较为 严 
重 的 竞争 ， 为 解决 这 一 问题 ，Siegwart Fil Hirzel 为 每 个 线程 额外 缓存 一 个 本 地 扫描 内 存 块 。 
因此 “ 待 扫描 一 扫描 ”的 状态 变迁 所 涉及 的 内 存 块 将 是 被 缓存 的 内 存 块 (如 果 存 在 的 话 ); 
相应 地 , “扫描 一 待 扫描 ”的 状态 变迁 会 将 扫描 内 存 块 缓存 ， 新 缓存 的 内 存 块 可 能 会 将 老 的 
缓存 驱逐 到 全 局 待 扫描 池 中 。 除 此 之 外 ， 他 们 所 使 用 的 内 存 块 ( 128KB) HE Imai 和 Tick 的 
更 大 。 并 行 层 次 分 解 复 制 算法 在 提升 关联 对 象 的 空间 局 部 性 方面 效果 显著 ， 大 多 数 父子 节点 
将 位 于 同一 个 4KB 的 页 内 ， 同 时 该 算法 还 可 以 减少 转译 后 备 缓冲 区 的 访问 次 数 、 降 低 高 速 
缓存 不 命中 的 概率 。 该 算法 以 增 大 回收 器 处 理 时 间 为 代价 来 换取 赋值 器 的 性 能 提升 ， 这 一 付 
出 是 否 真正 有 效 ， 取 决 于 应 用 程序 、 具 体 实现 以 及 平台 。 

通道 。Oancea 等 [2009] 采用 与 Wu 和 Li[2007] 类 似 的 多 通道 策略 (参见 第 14.5 节 ) 来 
避免 回收 过 程 对 原子 同步 操作 的 依赖 ,但 他 们 的 算法 却 是 以 内 存 为 中 心 而 非 以 处 理 器 为 中 心 
的 。 该 算法 原本 的 设计 目的 是 提升 非 一 致 内 存 架 构 下 的 处 理性 能 ,但 其 在 典型 的 多 核 平台 上 
同样 表现 良好 。 算 法 将 整个 堆 内 存 划分 为 多 个 分 区 ， 且 分 区 的 数量 远大 于 处 理 器 的 数量 。 每 
个 分 区 都 存在 独立 的 工作 列表 ， 其 中 所 包含 的 元 素 是 位 于 该 分 区 目标 空间 的 待 扫描 对 象 。 每 
个 工作 列表 在 任意 时 刻 都 只 能 由 一 个 处 理 器 进行 处 理 。 作 者 声称 ， 尽 管 这 种 将 工作 列表 与 内 
存 空 间 绑 定 的 策略 会 增加 处 理 器 之 间 的 交互 开销 ， 但 它 却 可 以 提升 回收 过 程 的 硬件 友好 性 。 

在 回收 过 程 中 ， 处 理 器 依然 需要 对 工作 列表 中 的 对 象 进行 扫描 。 如 果 新 发 现 的 对 象 位 于 
当前 分 区 ， 线 程 便 将 其 添加 到 自身 工作 列表 中 ， 如 果 对 象 位 于 其 他 分 区 ， 则 线程 将 其 引用 
发 送 到 该 分 区 所 对 应 的 工作 列表 。 处 理 器 之 间 通 过 单 读 单 写 通道 进行 工作 交换 ， 这 些 通道 
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的 实现 方式 依然 是 固定 大 小 的 环 状 缓冲 区 (参见 算法 13.34), HEF Intel 或 AMD 的 x86 48 
构 ， 在 通道 中 添加 或 者 移 除 元 素 无 需 借 助 于 任何 形式 的 锁 或 者 其 他 昂贵 的 内 存 屏 障 ， 但 对 于 
PowerPC 等 不 提供 强 访 问 顺 序 保障 的 架构 ， 要 么 必须 引入 屏障 ， 要 么 必须 通过 某 种 协议 确保 
缓冲 区 中 每 个 空 模 的 值 均 为 aal1。 线 程 具 有 在 尝试 获取 一 个 分 区 /工作 列表 时 才 需 使 用 锁 。 
分 区 的 大 小 为 32KB， 这 一 空间 单元 比 之 前 所 介绍 的 其 他 算法 都 要 大 。 与 更 细 粒 度 的 划分 策 
略 相 比 ， 较 大 的 分 区 粒度 降低 了 处 理 器 之 间 的 交互 开销 ， 但 其 却 不 利于 处 理 器 之 间 的 负载 
均衡 。 

在 回收 过 程 中 ， 每 个 线程 会 对 其 输入 通道 和 工作 列表 中 的 元 素 进行 处 理 ， 每 个 线程 的 结 
RAE: 其 不 再 拥有 任何 工作 列表 ; @@ 其 输入 输出 通道 缘 为 空 ，@ 所 有 线程 的 所 有 工作 
列表 均 为 空 。 每 个 线程 在 自身 回收 结束 时 都 会 设置 全 局 可 见 旗 标 。Oancea 等 通过 一 种 具有 
实用 性 的 策略 来 管理 回收 器 ， 即 在 回收 开始 阶段 ， 他 们 先 使 用 经 典 的 追踪 算法 完成 30 000 
个 对 象 的 处 理 ， 然 后 再 将 此 时 的 灰色 对 象 加 入 到 各 自 所 在 区 域 对 应 的 工作 列表 中 ， 接 下 来 再 
将 处 理 算法 切换 到 基于 通道 的 模式 ， 并 将 各 工作 列表 分 摊 给 各 处 理 器 进行 处 理 。 

FR (card table)。 分 代 回 收 器 通常 会 使 用 并 行 复 制 技术 来 管理 其 年 轻 代 ， 但 这 一 策略 
又 会 引入 另 一 个 问题 ， 即 如 何 对 记忆 集中 的 根 进行 并 行 处 理 。 记 忆 集 的 实现 方式 可 以 是 缓冲 
区 链表 、 哈 希 表 、 卡 表 ， 前 两 种 实现 方式 均 可 以 使 用 我 们 曾经 所 描述 过 的 技术 进行 处 理 。 例 
如 ， 如 果 记 忆 集 的 实现 方式 是 缓冲 区 链表 ， 则 线程 之 间 可 以 采用 与 块 结构 算法 类 似 的 方式 来 
竞争 下 一 个 缓冲 区 ， 并 据 此 实现 负载 均衡 。 但 对 于 以 卡 表 方式 实现 的 记忆 集 ， 线 程 之 间 的 负 
载 均衡 则 要 复杂 的 多 。 在 对 年 轻 代 进 行 回收 时 ， 回 收 器 必须 对 卡 表 所 指示 的 区 域 进 行 扫描 ， 
进而 才能 找到 所 有 潜在 的 分 代 间 指针 。 一 种 显而易见 的 并 行 扫描 策略 是 将 卡 表 划分 为 连续 
的 、 大 小 相等 的 内 存 块 ， 并 且 静 态 地 将 每 个 内 存 块 与 一 个 回收 线程 相关 联 ， 或 者 各 线程 以 动 
态 欧 争 的 方式 获取 卡 。 但 是 ， 存 活 对 象 在 各 内 存 块 中 的 分 布 通常 并 不 均匀 ， 即 某 些 内 存 块 中 
的 存活 对 象 可 能 十 分 密集 ， 而 在 另 一 些 内 存 块 中 则 十 分 稀 巩 。Flood 等 [2001] 发 现 这 一 简单 
的 工作 划分 方法 通常 无 法 有 效 实 现 负 载 均 衡 ， 因 为 对 存活 对 象 较为 密集 的 内 存 块 进行 扫描 通 
常会 占据 大 多 数 回收 时 间 。 为 解决 这 一 问题 ， 他 们 将 卡 表 进一步 细 分 为 N 个 步 (stride), 同 
一 步 中 的 每 个 卡 之 间 相 距 入 个 卡 ， 即 : 卡 集合 {0，N，2N，…} 组 成 一 步 ， 卡 集合 (1, N+ 
1,2N+1, …} 组 成 下 一 步 ， 以 此 类 推 。 这 一 策略 会 将 存活 对 象 较为 平均 地 散布 于 各 个 步 中 ， 
同时 各 线程 在 对 卡 表 进行 扫描 时 会 以 竞争 的 方式 获取 步 而 非 内 存 块 。 


14.7 ”并行 清扫 

本 章 的 最 后 我 们 将 介绍 并 行 清扫 与 并 行 整理 算法 。 这 两 种 算法 均 是 对 追踪 完成 之 后 的 对 
象 进 行 处 理 ， 此 时 回收 器 已 完成 堆 中 所 有 存活 对 象 的 识别 ， 因 而 这 两 个 阶段 的 并 行 化 都 相对 
简单 。 

从 原则 上 讲 ， 清 扫 阶段 的 并 行 化 解决 方案 十 分 简单 ， 要 么 将 堆 静 态 地 划分 为 多 个 连续 内 
存 块 ， 要 么 将 堆 划分 为 更 细 粒 度 的 内 存 块 ， 各 线程 通过 竞争 的 方式 来 获取 待 清扫 内 存 块 ， 并 
将 完成 处 理 的 内 存 块 插入 空闲 链表 。 但 在 该 策略 中 ， 将 空闲 内 存 插入 空闲 链表 的 操作 只 能 串 
行 ， 从 而 可 能 成 为 清扫 过 程 的 瓶颈 。 幸 运 的 是 ， 几 乎 在 所 有 并 行 系统 中 ， 处 理 器 都 可 以 拥有 
本 地 空闲 链表 并 使 用 分 区 适应 分 配 (参见 第 7 章 )， 因 此 各 线程 之 间 的 竞争 将 仅 发 生 在 将 空闲 
内 存 块 归还 给 全 局 内 存 块 分 配器 的 过 程 中 。 另 外 ， 懒 惰 清 扫 (参见 第 2 章 ) 天 然 就 是 一 种 并 
行 清扫 解决 方案 ， 它 可 以 根据 赋值 器 线程 的 分 配 率 天 然 实现 对 半 满 内 存 块 清扫 的 负载 均衡 。 
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懒惰 清扫 所 执行 的 第 一 个 步骤 (也 是 唯一 一 步 ) 是 识别 出 完全 为 空 的 内 存 块 并 将 其 返回 
给 内 存 块 分 配器 。 为 减少 这 一 过 程 中 的 竞争 ，Endo 等 [1997] 为 每 个 回收 线程 维护 数 个 〈 例 
如 64 个 ) 连续 内 存 块 以 进行 本 地 处 理 。 其 回收 器 使 用 位 图 标记 ， 位 图 本 身 位 于 内 存 块 的 头 
部 ， 而 其 头 部 会 相对 内 存 块 本 身 独 立 存 放 。 基 于 这 一 策略 ， 回 收 线程 可 以 十 分 简单 地 判定 某 
一 内 存 块 是 否 完全 为 空 ， 然 后 再 将 完全 为 空 的 内 存 块 排序 、 合 并 ， 最 后 将 其 添加 到 本 地 空闲 
内 存 块 链表 。 不 完全 为 空 的 内 存 块 则 将 添加 到 本 地 回收 链表 ， 以 便 赋 值 器 线程 进行 懒惰 清扫 
(如 果 使 用 分 区 适应 分 配 ， 则 可 以 为 每 一 种 大 小 分 级 维护 一 个 链表 )。 当 回收 线程 完成 清扫 任 
务 后 ， 其 会 将 清扫 所 得 的 空闲 内 存 块 合并 到 全 局 空闲 内 存 块 链表 中 。 该 策略 存在 的 另 一 个 问 
题 是 ， 在 赋值 器 线程 耗 尽 其 本 地 内 存 块 之 后 ， 如 果 全 局 工作 池 中 不 存在 更 多 内 存 块 ， 线 程 应 
如 何 进行 下 一 步 动 作 。 一 种 策略 是 从 其 他 线程 窃取 内 存 块 ， 但 如 此 一 来 ， 获 取 下 一 个 待 清扫 
内 存 块 的 操作 将 不 得 不 引入 同步 操作 。 尽 管 如 此 ， 这 一 开销 仍然 是 值得 付出 的 ， 因 为 相对 于 
从 内 存 块 中 分 配 一 个 槽 的 操作 而 言 ， 获 取 新 内 存 块 进行 清扫 的 频率 通常 较 低 ， 与 此 同时 ， 线 
程 在 获取 待 清扫 内 存 块 时 通常 很 少 发 生 竞 争 。 


14.8 并行 整理 


并 行 标记 一 整理 算法 所 涉及 的 问题 与 本 章 前 面 所 描述 的 其 他 算法 基本 类 似 。 回 收费 首先 
对 存活 对 象 进行 并 行 标记 ， 然 后 再 进行 并 行 移动 。 并 行 滑动 整理 的 实现 在 某 些 方面 要 比 并 行 
复制 更 为 简单 ， 特 别 是 在 堆 空 间 连 续 的 情况 下 。 例 如 ， 当 完成 所 有 存活 对 象 的 标记 后 ， 存 活 
对 象 的 移动 目标 地 址 就 已 经 确定 ， 因 此 线程 之 间 的 竞争 仅 可 能 对 性 能 造成 影响 ， 而 不 会 影响 
到 回收 的 正确 性 。 标 记 阶 段 完成 后 ， 所 有 的 整理 式 回收 器 都 需要 经 过 两 个 或 更 多 阶段 来 确定 
存活 对 象 的 转发 地 址 、 更 新 引用 、 移 动 对 象 。 正 如 我 们 在 第 3 章 所 看 到 的 ， 不 同 算法 可 能 会 
以 不 同 的 顺序 来 完成 这 些 任务 ， 某 些 算 法 还 可 能 在 一 次 堆 遍 历 过 程 中 完成 两 项 任务 。 

Crammond [1988] 为 Parlog (一 种 并 发 逻辑 程序 语言 ) 实现 了 一 种 位 置 感知 ( location- 
aware) 回收 器 。 在 逻辑 程序 语言 中 保持 对 象 在 堆 中 的 顺序 存在 诸多 优势 ， 特 别 地 ， 如 果 我 们 
使 用 顺序 分 配 策略 ， 并 在 进行 垃圾 回收 时 保持 对 象 的 分 配 顺 序 ， 那 么 当 程序 的 执行 回 到 某 
一 “选择 点 ”时 ， 在 该 选择 点 之 后 分 配 的 对 象 全 部 都 可 以 简单 丢 充 。 滑 动 整 理 即 可 保持 对 
象 的 分 配 顺序 。Crammond 的 回收 器 实现 了 Morris[1978] 引线 回收 器 (参见 3.3 W) 的 并 行 
化 ， 本 节 我 们 仅 介 绍 该 算法 的 并 行 部 分 。Crammond 将 堆 划 分 为 多 个 区 域 ， 同 时 将 每 个 区 域 
与 指定 的 处 理 器 绑 定 以 减少 开销 。 在 回收 过 程 中 ， 当 处 理 器 发 现 位 于 自身 区 域 的 对 象 时 ， 会 
直接 对 其 进行 标记 并 增加 本 地 计数 器 的 值 。 一 旦 遇 到 “远程 ”对 象 ， 处 理 器 会 将 该 对 象 的 
引用 压 人 到 其 所 对 应 处 理 器 的 间接 引用 栈 ， 同 时 增加 全 局 计数 器 的 值 (该 计数 器 用 于 结束 检 
测 )。 远 程 处 理 器 将 负责 该 对 象 的 处 理 并 减少 全 局 计数 器 的 值 。 间 接 引 用 栈 为 单 读 多 写 数 据 
结构 ， 因 而 在 整个 算法 中 ， 只 有 往 间 接 引用 栈 中 压 人 远程 对 象 时 才 需 使 用 同步 操作 《〈 即 加 
锁 )。Crammond 发 现 ， 通 常 只 有 不 到 1% 的 存活 对 象 会 被 压 人 间接 引用 栈 。 

Flood 等 [2001] 使 用 并 行 标记 -整理 算法 来 管理 其 Java 虚拟 机 的 年 老 代 。 在 并 行 标记 
阶段 结束 之 后 ， 回 收 周期 还 需 经 历 三 个 阶段 才能 结束 : 四 计算 转发 地 址 ; @) 更 新 引用 ; OB 
动 对 象 。 其 算法 的 亮点 在 于 ， 整 理 过 程 的 不 同 阶段 会 使 用 不 同 的 负载 均衡 策略 。 单 线程 整理 
算法 通常 会 将 所 有 存活 对 象 滑 动 到 堆 的 一 端 ， 如 果 多 线程 并 行 移动 对 象 ， 则 必须 确保 每 个 线 
程 不 会 覆盖 其 他 线程 尚未 移动 的 存活 对 象 。 基 于 这 一 原因 ，Flood 等 并 不 采用 将 所 有 存活 对 
象 整理 到 堆 的 一 端的 策略 ， 而 是 将 堆 空 间 划 分 为 多 个 区 域 ， 每 个 线程 负责 一 个 区 域 中 对 象 的 
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整理 。 每 个 线程 仅 需 将 其 所 负责 区 域内 的 存活 对 象 滑动 到 该 区 域 的 一 端 则 可 。 为 减少 这 一 分 
区 策略 可 能 带 来 的 (有 限 的 ) 内 存 碎 片 ， 整 理 奇数 编号 区 域 的 线程 会 与 整理 偶数 编号 区 域 的 
线程 使 用 不 同 的 滑动 方向 (参见 图 14.8 )。 


堆 (整理 前 ) 









. 2 3 堆 《整理 后 ) 
图 14.8 Flood 等 [2001] 将 堆 划 分 为 多 个 区 域 ， 每 个 线程 负责 一 个 区 域 的 整理 。 负 责 相 邻 区 域 整理 的 线 


程 使 用 不 同 的 滑动 方向 (如 灰色 箭头 所 示 ) 


在 整理 过 程 的 第 一 阶段 ， 每 个 线程 先 在 存活 对 象 的 头 部 写 人 转发 地 址 ， 即 对 象 在 回收 完 
成 之 后 的 新 地 址 。 该 阶段 中 ，Flood 等 将 堆 空间 进行 较 细 粒 度 的 划分 ， 目 的 是 为 了 实现 更 好 
的 负载 均衡 。 他 们 将 堆 空 间 划分 为 M 个 大 致 相等 的 、 依 照 对 象 对 齐 (object-aligned) 的 单元 
Cunit)， 同 时 他 们 发 现 , 在 8 路 UltraSPARC 服务 器 上 ， 当 单元 的 数量 达到 回收 线程 数量 的 4 
倍 ( 即 M= 4N) 时 表现 最 佳 。 各 回收 线程 通过 竞争 的 方式 来 获取 单元 ， 然 后 计算 其 中 存活 对 
象 的 总 大 小 ， 同 时 为 了 提升 后 续 处 理 过 程 ， 线 程 还 会 将 相 邻 垃圾 对 象 合并 为 单个 “ 准 ” 对 象 。 
在 计算 出 每 个 单元 中 存活 对 象 的 总 大 小 之 后 ， 回 收 器 会 重新 将 堆 空间 划分 为 N 个 大 小 不 等 
的 区 域 ， 并 确保 每 个 区 域 所 包含 的 存活 对 象 数据 量 大 致 相等 。 这 些 区 域 会 依照 上 一 阶段 所 划 
分 的 单元 进行 对 齐 。 该 阶段 同时 还 会 计算 每 个 单元 中 首 个 对 象 的 目标 地 址 ， 这 一 过 程 同时 需 
要 考虑 每 个 单元 中 存活 对 象 的 滑动 方向 。 计 算 完 成 后 ， 每 个 回收 线程 将 通过 竞争 的 方式 来 获 
取 单 元 ， 并 为 其 中 的 每 个 存活 对 象 写 人 转发 地 址 。 

在 整理 的 第 二 阶段 ， 回 收费 需要 把 存活 对 象 的 引用 更 新 到 其 在 整理 完成 后 的 新 地 址 。 与 
传统 的 整理 式 算法 相同 ， 这 一 过 程 仍 需 要 扫描 赋值 器 线程 栈 、 与 存活 对 象 位 于 同一 空间 以 
及 不 同 空间 (例如 更 老 的 分 代 ) 的 引用 ， 此 时 有 多 种 负载 均衡 策略 可 供 选择 。Flood 等 再 次 
使 用 单元 划分 策略 来 扫描 待 整理 空间 ( 即 年 老 代 )， 但 其 对 年 轻 代 的 扫描 则 仅 使 用 单个 线程 。 
在 整理 的 第 三 阶段 ， 每 个 线程 将 负责 一 块 区域 中 对 象 的 移动 ， 由 于 每 个 区 域 中 存活 对 象 的 总 
量 大 致 相等 ， 因 而 各 线程 的 工作 负载 也 大 致 均衡 。 

Flood 等 的 并 行 整理 算法 存在 两 个 缺陷 。 首 先 ， 算 法 需要 3 次 堆 遍 历 过 程 ， 而 第 3 章 所 
介绍 的 其 他 算法 则 只 需要 两 次 甚至 更 少 。 其 次 ， 该 算法 最 终 只 能 将 堆 整 理 成 NN 个 存活 对 象 
W, ARIIN + 1) / 2] 个 用 于 分 配 的 间隙 ， 而 不 能 把 把 所 有 存活 对 象 整理 到 堆 的 一 端 。 每 个 
存活 对 象 带 中 的 对 象 将 紧密 排 布 ， 意 味 着 其 中 可 能 被 浪费 的 空间 仅 可 能 是 由 对 象 对 齐 要 求 造 
成 的 。 但 是 ， 如 果 回 收 线 程 的 数量 较 多 ( 即 划 分 的 区 域 较 多 )， 则 很 可 能 导致 赋值 器 无 法 分 
配 占用 空间 很 大 的 对 象 。 

Abuaiadh 等 [2004] 通过 计算 而 非 存储 转发 地 址 的 方式 解决 了 Flood 等 算法 中 的 第 一 个 
问题 ， 即 : 他 们 使 用 偏 移 向 量 来 记录 堆 内 每 个 小 内 存 块 中 第 一 个 存活 对 象 的 新 地 址 ， 同 时 借 
助 于 标记 位 图 来 计算 该 内 存 块 中 其 他 存活 对 象 的 新 地 址 ， 如 第 3.4 节 所 述 。 为 解决 第 二 个 问 
题 ， 他 们 将 堆 空 间 划分 为 数 个 粒度 较 细 的 、 大 致 相等 的 较 大 区 域 ， 他 们 建议 区 域 的 数量 可 以 
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是 处 理 器 数量 的 16 倍 ， 且 确保 每 个 区 域 的 大 小 至 少 为 4MB。 回 收 器 将 顺 次 对 每 个 区 域 进 行 
整理 。 回 收 线程 将 通过 原子 增加 全 局 区 域 编 号 (或 者 指针 ) 的 方式 获取 内 存 区 域 。 如 果 获 取 
成 功 ， 线 程 将 对 该 区 域 进行 整理 ; 否则 意味 着 其 他 线程 已 经 占有 该 区 域 ， 该 线程 将 重新 尝试 
获取 下 一 个 区 域 。 因 此 ， 线 程 获取 区 域 的 操作 将 是 无 等 待 的 。 回 收 器 通过 一 张 空闲 地 址 表 来 
记录 每 个 区 域 中 起 始 空闲 内 存 的 地 址 。 当 线程 成 功 获取 待 整理 区 域 之 后 ， 其 将 通过 竞争 的 方 
式 获 取 可 以 用 作 目 标 空 间 的 区 域 ， 竞 争 的 方式 是 尝试 原子 化 地 将 某 一 区 域 在 空闲 地 址 表 中 的 
对 应 条 目 设 置 为 空 。 线 程 永远 不 会 将 存活 对 象 复 制 到 空闲 地 址 表 中 对 应 条 目 为 空 的 区 域 中 ， 
也 不 会 将 编号 较 低 区 域 中 的 存活 对 象 复制 到 编号 较 高 的 区 域 中 。 由 于 线程 至 少 可 以 对 其 所 处 
理 的 区 域 进 行 原 地 整理 ， 从 而 确保 了 线程 在 任何 情况 下 都 可 以 执行 完成 。 当 完成 某 一 区 域 的 
整理 后 ， 线 程 会 将 目标 区 域 以 及 来 源 区 域 的 空闲 内 存 地 址 更 新 到 空闲 地 址 表 中 ， 但 如 果 目 标 
区 域 在 整理 完成 后 已 被 填 满 ， 则 其 在 空闲 地 址 表 中 的 条 目 将 保持 为 空 。 

Abuaiadh 等 提出 了 两 种 移动 对 象 的 方式 。 第 一 种 方式 是 以 单独 的 存活 对 象 为 单位 来 进 
行 移动 ， 正 如 前 面 章 节 所 述 。 该 方案 整理 效果 最 佳 ， 内 存 碎片 最 少 。 需 要 注意 的 是 ， 由 于 内 
存 块 中 每 个 对 象 的 移动 都 需要 依赖 该 内 存 块 在 偏 移 向 量 中 的 值 ， 所 以 回收 线程 必须 确保 同一 
内 存 块 中 的 对 象 不 会 被 隔离 到 不 同 的 目标 区 域 中 。 除 此 之 外 他 们 还 提出 第 二 种 整理 策略 ， 即 
通过 牺牲 整理 质量 的 方式 来 换取 整理 时 间 ， 该 策略 会 一 次 性 移动 整个 内 存 块 (他们 使 用 256 
字 节 的 内 存 块 )， 如 图 14.9 所 示 。 对 象 通常 成 艇 诞生 ， 成 批 死 亡 ， 因 而 在 顺序 分 配 策略 下 ， 
存活 对 象 与 死亡 对 象 在 堆 空间 内 也 会 集中 出 现 。 他 们 发 现 ， 这 一 策略 可 以 将 整理 耗 时 减少 一 
半 ， 其 所 造成 的 空间 浪费 却 几乎 微不足道 。 但 在 最 差 情况 下 ， 该 策略 有 可 能 无 法 回收 任何 空 
闲 内 存 。 


堆 (整理 前 ) 





图 14.9 el ia, WE 以 内 存 块 而 非 对 象 为 单位 进行 滑动 整理 ， 每 个 内 存 
块 内 的 空闲 内 存 将 无 法 被 “ 挤 出 ” 


这 种 计算 而 非 存 储 转发 地 址 的 策略 也 在 Compressor Elik% [Kermany and Petrank, 2006] 
中 得 到 应 用 ,但 其 与 Abuaiadh 等 [2004] 的 策略 有 所 不 同 。 首 先 ， 在 第 二 阶段 对 标记 位 图 的 遍 
历 过 程 中 ， 回 收 器 在 计算 偏 移 向 量 9 之 外 还 需 计算 首 对 象 向 量 ( first-object vector)。 首 对 象 向 
量 以 整理 完成 之 后 存活 对 象 所 占用 内 存 页 的 编号 作为 索引 ， 其 每 个 槽 所 对 应 的 值 是 未 来 将 会 
移动 到 对 应 页 中 的 首 个 对 象 在 执行 整理 之 前 的 地 址 。 整 理 过 程 从 更 新 根 开 始 执行 〈 该 过 程 需 要 
依赖 标记 向 量 与 偏 移 向 量 )。 

Compressor 回收 器 的 第 二 个 不 同 之 处 在 于 ， 每 个 线程 将 通过 首 对 象 表 来 竞争 目标 页 ， 
竞争 获胜 的 线程 将 把 一 个 新 的 物理 内 存 页 映射 为 虚拟 内 存 页 ， 然 后 根据 目标 页 在 首 对 象 身 量 
中 所 记录 的 地 址 进行 对 象 复制 ， 复 制 过 程 需要 同时 依赖 偏 移 向 量 与 标记 向 量 。 这 种 将 存活 对 


象 迁移 到 新 内 存 页 的 策略 允许 Compressor 回收 器 使 用 多 个 并 行 回 收 线程 ， 且 整理 过 程 能 够 


O 其 偏 移 向 量 中 的 每 个 条 目 对 应 512 字 节 ， 其 内 存 块 同样 也 比 Abuaiadh 等 [2004] 的 要 大 。 
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遵循 滑动 顺序 ( 见 第 3 章 )。 我 们 很 容易 将 Compressor 回收 器 误 认 为 是 复制 式 而 非 整 理 式 回 
收 器 ， 但 它 确 实 是 一 种 遵循 滑动 顺序 的 标记 -整理 回收 器 : 尽管 该 回收 器 在 管理 来 源 空 间 页 
与 目标 空间 页 时 也 需要 付出 一 定 的 空间 开销 ， 但 这 一 开销 通常 只 是 每 个 回收 线程 的 一 个 内 存 
页 ， 相 比 之 下 ， 传 统 的 半 区 复制 回收 器 则 需要 两 倍 的 扒 空 间 。Compressor 回收 器 的 技巧 在 
于 ， 它 不 仅 可 以 映射 新 的 目标 空间 页 ， 还 可 以 在 完成 来 源 空间 某 一 页 中 全 部 存活 对 象 的 迁移 
后 解除 其 映射 。 

这 一 设计 策略 最 大 限度 地 减少 了 各 整理 线程 之 间 的 同步 开销 ， 即 : 只 有 当 线程 从 首 对 象 
向 量 中 为 其 目标 页 获取 首 对 象 地 址 时 ， 才 需要 使 用 同步 操作 ， 同 时 由 于 线程 在 竞争 失败 之 后 
无 需 进 行 重 试 ， 所 以 这 一 过 程 也 是 无 等 待 的 ( 某 一 线程 竞争 失败 意味 着 其 他 线程 竞争 胜出 ， 
因而 该 线程 只 需 尝试 获取 下 一 个 条 目 )。 算 法 的 结束 检测 也 十 分 简单 ， 每 个 线程 只 需 在 到 达 
首 地 址 向 量 的 末尾 后 直接 退出 。 一 个 值得 注意 的 细节 是 跨 页 对 象 的 处 理 。 在 万 物 静止 算法 
中 ， 我 们 可 以 简单 地 将 跨 页 对 象 与 其 最 终 将 被 移动 到 的 第 一 个 页 相关 联 。 但 是 在 并 发 回收 算 
法 中 这 一 方案 将 存在 问题 (我 们 将 在 17.7 节 进 行 详细 讨论 )， 此 时 我 们 必须 精确 复制 属于 某 
一 目标 空间 页 的 数据 ， 即 : 如 果 某 一 对 象 只 有 前 一 半 落 入 该 页 ， 我们 则 只 能 复制 其 前 半 部 分 ; 
类 似 地 ， 如 果 某 一 对 象 只 有 后 一 半 落 入 该 页 ， 我 们 则 只 能 复制 其 后 半 部 分 。 


14.9 ”需要 考虑 的 问题 


14.9.1 术语 


在 对 并 行 垃圾 回收 的 早期 研究 中 ， 相 关 术 语 的 使 用 通常 较为 混乱 ，20 世纪 的 论文 中 通 
常会 将 “并 行 "、“ 并 发 ”甚至 “即时 ”这 些 术 语 等 价 。 但 幸运 的 是 ， 学 者 们 已 经 在 2000 年 
左右 对 这 些 术语 的 含义 达成 共识 : 并 行 回收 器 仅 指 基 于 多 个 回收 线程 并 行 执行 的 回收 器 ， 在 
回收 过 程 中 ， 赋 值 器 线程 既 可 能 处 于 挂 起 状态 ， 也 可 能 继续 执行 。 弓 庸 置疑 ， 在 底层 平台 支 
持 的 情况 下 ， 我 们 应 当 尽量 使 用 并 行 回收 ， 正 如 赋值 器 尽量 多 地 使 用 并 行 处 理 器 资源 那样 。 


14.9.2 并行 回 收 是 否 值得 


首先 我 们 需要 考虑 的 问题 是 Amdahl 定律 的 限制 ， 即 是 否 有 足够 多 的 工作 可 以 并 行 。 
无 法 并 行 处 理 的 案例 十 分 普遍 ， 例 如 对 单 链 表 进 行 追 踪 。 事 实证 明 ， 实 际 的 应 用 程序 中 通常 
会 存在 多 种 类 型 的 数据 结构 ， 且 它们 通常 具有 较 高 的 潜在 并 行 加 速率 [Siebert，2008]。 在 追 
踪 过 程 之 外 ,垃圾 回收 过 程 的 其 他 动作 也 赋予 并 行 硬件 更 多 的 用 武之 地 ， 例 如 清扫 过 程 与 
整理 过 程 显 然 是 可 以 并 行 化 的 (尽管 并 行 整理 处 理 起 来 稍微 复杂 一 些 )。 即 使 是 在 追踪 阶段 ， 
对 线程 栈 以 及 记忆 集 的 并 行 扫描 也 只 需要 引入 很 少 的 同步 开销 ， 而 并 行 追踪 则 需要 仔细 设计 
各 线程 的 工作 列表 ， 这 不 仅 是 为 了 尽量 减少 同步 开销 ， 而 且 是 为 了 尽量 高 效 地 利用 并 行 硬件 
资源 。 


14.9.3 ”负载 均衡 策略 
高 效 的 并 行 回收 算法 需要 在 处 理 器 的 负载 均衡 与 线程 同步 开销 之 间 进 行 平 衡 。 负 载 均 衡 


© Amdahl 定律 指出 ， 并 行 处 理 对 应 用 程序 的 加 速效 应 受 限 于 程序 中 可 以 并 行 处 理 的 工作 占 全 部 工作 的 比例 。 
设 s 为 程序 中 必须 串 行 处 理 的 工作 在 单个 处 理 器 上 的 执行 时 间 ,p 为 可 以 由 个 处 理 器 并 行 处 理 的 工作 在 单 
个 处 理 器 上 串 行 执行 需要 花费 的 时 间 ， 则 并 行 加 速 比 为 1 / (s + p/n)。 
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的 目的 在 于 避免 出 现 部 分 处 理 器 空闲 而 其 他 处 理 器 忙于 处 理 所 有 工作 的 情况 。 对 内 存 等 其 他 
资源 进行 均衡 分 配 也 十 分 重要 。 同 步 的 目的 不 仅 在 于 保护 回收 器 的 工作 列表 ， 同 时 还 是 为 了 
确保 从 堆 中 所 分 配 的 数据 结构 的 完整 性 。 例 如 ， 两 个 线程 同时 操作 同一 个 标记 栈 指针 可 能 会 
导致 元 素 的 丢失 ， 而 两 个 线程 同时 复制 同一 个 对 象 则 可 能 导致 对 象 图 的 拓扑 结构 发 生 错 误 的 
变化 。 另 外 ， 最 细 粒 度 的 负载 均衡 策略 通常 会 伴随 极 高 的 同步 开销 。 

为 此 ， 负 载 均衡 的 解决 方案 一 般 是 为 每 个 回收 线程 分 配 一 定量 的 工作 ， 且 线程 在 处 理 这 
些 工作 时 无 需 与 其 他 线程 进行 额外 同步 ， 因 此 如 何在 线程 之 间 进 行 工 作 分 配 便 成 为 关键 。 最 
直接 且 同 步 开销 最 小 的 工作 划分 方案 是 对 回收 工作 进行 静态 划分 ， 执 行 这 一 划分 的 时 机 可 以 
是 编译 期 ， 也 可 是 程序 启动 或 回收 过 程 开 始 时 。 在 静态 工作 划分 策略 下 ， 线 程 仅 在 执行 结束 
检测 时 才 需 进行 同步 ， 但 该 策略 的 缺陷 在 于 线程 之 间 通 常 无 法 实现 较 好 的 负载 均衡 。 另 一 种 
负载 均衡 策略 是 将 回收 工作 进行 较 细 粒 度 的 划分 ， 每 个 线程 通过 竞争 的 方式 获取 工作 ， 同 时 
将 新 产生 的 工作 释放 到 全 局 工作 池 中 。 该 策略 可 以 达到 较 好 的 负载 均衡 效果 ， 但 其 可 能 会 引 
人 过 多 的 同步 开销 。 在 这 两 种 极端 策略 之 外 ， 我 们 也 可 在 回收 过 程 的 不 同 阶段 使 用 不 同 的 负 
载 均 衡 策略 。 例 如 ， 某 一 阶段 所 获取 的 信息 (通常 是 标记 阶段 ) 通常 可 以 指导 后 续 阶 段 各 线 
程 之 间 的 工作 划分 ，Flood 等 [2001] 的 回收 器 便 是 使 用 这 一 策略 的 绝 佳 案例 。 
14.9.4 ”并 行 追 踪 

追踪 堆 的 过 程 通 常会 涉及 两 个 方面 : 一 是 现 有 工作 的 处 理 ( 即 标记 /复制 对 象 )， 二 是 新 
工作 的 生成 ( 即 处 理 对 象 尚未 得 到 追踪 的 子 节点 )。 该 阶段 通常 会 使 用 栈 或 者 队列 等 数据 结 
构 来 记录 待 处 理工 作 。 单 个 共享 数据 结构 通常 会 引发 较 大 的 同步 开销 ， 因 而 回收 线程 通常 
会 配备 本 地 数据 结构 。 但 出 于 负载 均衡 的 目的 ， 我们 仍 需要 引入 一 些 额 外 机 制 来 实现 线程 
之 间 的 工作 迁移 。 首 先 需 要 确定 的 是 使 用 哪 种 机 制 进行 工作 迁移 。 本 章 介 绍 了 多 种 工作 迁 
移 策略 。 支 持 工作 窃取 的 数据 结构 允许 线程 之 间 安 全 地 进行 工作 传递 ， 该 策略 通常 会 在 确 
保 常态 操作 ( 即 追 踪 过 程 中 的 栈 压 入 和 弹出 操作 ) 尽量 廉价 ( 即 不 使 用 同步 操作 ) 的 前 提 下 
支持 非常 态 操 作 ( 即 线程 之 间 工 作 的 安全 传递 )。Endo 等 [1997] 为 每 个 线程 提供 了 本 地 栈 
以 及 本 地 可 窃取 工作 队列 ， 而 在 Flood 等 [2001] 的 方案 中 ， 每 个 线程 仅 需 使 用 一 个 同时 支 
持 追 踪 与 工作 窃取 的 双 端 队列 。 灰 色 工 作 包 策 略 使 用 一 个 全 局 工作 池 来 保存 需要 处 理 的 工 
作 缓 冲 区 [Thomas 等 ，1998 ; Ossia 等 ，2002]， 每 个 回收 线程 会 以 竞争 的 方式 获取 工作 包 
并 进行 处 理 ， 同 时 线程 新 产生 的 工作 也 将 以 新 工作 包 的 形式 释放 到 全 局 工作 池 中 。Cheng 和 
Blelloch[2001] 将 追踪 过 程 拆 分 为 多 个 阶段 (他 们 称 之 为 “工作 空间 ”)， 在 最 简单 的 情况 下 ， 
所 有 线程 要 么 都 位 于 压 入 工作 空间 ， 要 人 么 都 位 于 弹出 工作 空间 。 不 论 线程 位 于 哪个 工作 空 
间 ， 所 有 线程 在 相同 时 刻 都 将 尝试 沿 着 相同 的 方向 移动 栈 指针 ， 此 时 使 用 Fetchanaada 原子 
操作 便 可 满足 要 求 。 还 有 一 些 回收 器 会 在 任意 两 个 追踪 线程 之 间 建 立 单 读 单 写 通道 ， 从 而 无 
需 依 赖 任何 原子 操作 [Wu and Li，2007; Oancea 等 ，2009]。 

另外 还 需 考虑 的 问题 是 ， 线 程 之 间 应 当 传递 多 少 工 作 ， 以 及 何 时 进行 传递 。 研 究 者 们 提 
出 了 多 种 不 同 的 解决 方案 。 工 作 传 递 的 最 小 单元 可 以 是 栈 中 的 单个 元 素 ， 但 如 果 传 递 单元 过 
小 ， 则 可 能 增 大 线程 之 间 的 传递 流量 。 在 Sierbert[2010] 并 行 、 并 发 以 及 实时 回收 器 中 ， 回 
收 器 会 保留 一 个 处 理 器 ， 该 处 理 器 在 初始 情况 不 会 分 配 到 任何 工作 ， 其 所 有 工作 均 是 从 其 他 
线程 窃取 而 来 。 但 该 方案 似乎 只 有 在 各 线程 不 会 在 相同 时 间 完 成 回收 工作 时 才能 显示 出 其 价 
值 (因为 该 回收 器 允许 赋值 器 与 回收 器 并 发 执行 ， 因 而 不 存在 处 理 器 资源 浪费 问题 )。 通 用 
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的 解决 方案 是 将 线程 之 间 传 递 工作 的 单元 设置 为 某 一 适中 的 值 。 固 定 大 小 的 灰色 工作 包 天 然 
满足 这 一 要 求 ， 除 此 之 外 还 有 其 他 一 些 策略 ， 例 如 传递 线程 标记 栈 中 工作 量 的 一 半 。 如 果 标 
记 栈 的 大 小 固定 ， 则 某 些 实现 机 制 必须 能 够 处 理 栈 溢 出 问题 。 灰 色 工 作 包 也 可 天 然 解 决 这 一 
问题 : 当 输出 工作 包 被 填 满 后 ， 线 程 会 将 其 释放 到 全 局 工作 池 中 ， 并 从 中 获取 一 个 新 的 空 工 
作 包 。Flood 等 [2001] 将 溢出 的 对 象 通过 引线 的 方式 与 Java 类 对 象 链接 ， 该 策略 仅 会 为 每 个 
类 引入 较 小 的 、 固 定 大 小 的 空间 开销 。 大 数组 会 给 线程 之 间 的 负载 均衡 带 来 一 定 麻 烦 ， 一 种 
解决 方案 是 将 较 大 的 、 逻 辑 连 续 的 对 象 拆 分 为 链 式 数 据 结 构 ， 该 方案 在 实时 系统 中 得 到 广泛 
应 用 。 另 一 种 解决 方案 是 将 大 数组 划分 为 多 个 分 段 压 人 标记 栈 ， 从 而 可 以 将 整个 数组 的 扫描 
划分 为 多 个 步骤。 

上 述 各 种 负载 均衡 策略 均 是 以 处 理 器 为 中 心 的 ， 即 算法 侧重 于 管理 每 个 线程 (处理 器 ) 
的 本 地 工作 列表 。 另 一 类 负载 均衡 策略 则 是 以 内 存 为 中 心 ， 即 算法 主要 考虑 对 象 在 内 存 空间 
的 位 置 分 布 。 这 一 负载 均衡 策略 在 非 一 致 内 存 架 构 中 将 格外 重要 ， 因 为 处 理 器 访问 远 端 内 存 
的 开销 要 比 访问 本 地 内 存 大 得 多 。 以 内 存 为 中 心 的 负载 均衡 策略 在 并 行 复制 式 回收 器 中 应 
用 广泛 ， 特 别 是 在 以 Cheney 队列 作为 工作 列表 的 回收 器 中 [Imai and Tick，1993 ; Siegwart 
and Hirzel，2006]。 此 类 负载 均衡 策略 需要 考虑 的 主要 问题 是 : 中 内 存 块 的 大 小 〈 即 线程 的 
最 小 处 理 单元 ) ; @ 线 程 应 当 获 取 哪个 内 存 块 进行 处 理 ， 同 时 又 应 当 将 那个 内 存 块 释放 到 全 
局 工作 池 中 ; 图 对 象 被 哪个 线程 所 “拥有 ”。 在 确定 内 存 块 大 小 时 有 两 方面 因素 需要 考虑 。 
第 一 ， 所 有 移动 式 回收 器 都 应 当 为 每 个 线程 配备 私有 分 配 缓冲 区 ， 目 的 是 为 了 进行 速度 较 快 
的 顺序 分 配 。 为 避免 给 全 局 内 存 块 分 配器 造成 压力 ， 这 些 用 于 线程 本 地 分 配 缓冲 区 的 内 存 块 
应 当 拥 有 较 大 的 空间 ， 但 对 于 使 用 复制 策略 的 并 行 回收 器 而 言 ， 较 大 的 内 存 块 不 利于 线程 之 
间 的 负载 均衡 。 因 此 对 于 Cheney 式 回收 器 而 言 ， 用 作 线 程 本 地 分 配 缓冲 区 的 内 存 块 应 当 被 
划分 为 更 小 的 内 存 块 。 第 二 ， 如 何 选择 下 一 个 要 处 理 的 对 象 将 同时 影响 回收 器 和 赋值 器 的 局 
部 性 (参见 4.2 节 )。 较 好 的 选择 应 当 是 在 用 于 分 配 的 内 存 块 中 选择 一 个 对 象 进行 处 理 ， 而 将 
处 理 过 程 中 间 生 成 的 、 未 扫描 的 或 尚未 完成 扫描 的 内 存 块 释放 到 全 局 工作 池 中 。 如 果 是 在 扫 
完 一 个 内 存 块 之 后 再 选择 下 一 个 内 存 块 ， 将 有 助 于 提升 回收 器 的 局 部 性 ; 而 如 果 在 完成 一 
个 对 象 的 扫描 之 后 立即 选择 下 一 个 待 扫描 内 存 块 ， 则 有 助 于 提升 赋值 器 的 局 部 性 ， 因 为 这 一 
策略 将 使 回收 线程 以 类 似 于 深度 优先 的 顺序 ( 即 层次 分 解 顺序 ) 进行 追踪 。 最 后 ， 还 需 考虑 
的 问题 是 某 一 对 象 最 可 能 被 哪个 处 理 器 访问 。Oancea 等 [2009] 使 用 “支配 线程 ”这 一 概念 
来 决定 每 个 对 象 应 当 被 哪个 处 理 器 复制 (同时 也 决定 了 对 象 将 被 复制 到 哪个 空间 )。 


14.9.5 低级 同步 


我 们 知道 ， 对 回收 器 数据 结构 的 修改 通常 需要 使 用 同步 操作 ， 而 对 单个 对 象 的 更 新 也 可 
能 需要 使 用 同步 操作 。 原 则 上 讲 ， 标 记过 程 本 身 属于 宕 等 操作 ， 也 就 是 说 ， 即 使 同一 对 象 被 
标记 多 次 也 不 会 出 错 ， 但 如 果 回 收 器 使 用 位 图 标记 ， 则 必须 确保 标记 操作 的 原子 性 。 由 于 现 
代 处 理 器 指令 集 通 常 不 会 提供 设置 一 个 字 或 字 节 中 的 某 一 位 的 原子 操作 ， 所 以 设置 标记 位 的 
过 程 通常 需要 对 整个 标记 字 节 进行 原子 化 的 设置 ， 如 果 设 置 失败 ， 则 需 进行 重 试 ， 直 到 设置 
成 功 为 止 。 如 果 将 标记 位 保存 在 对 象 头 部 ， 或 者 使 用 字 节 图 进行 标记 ， 则 标记 过 程 无 需 引 入 
任何 同步 操作 。 

复制 式 回 收 器 在 任何 情况 下 都 不 应 当 多 次 “标记 ”( 即 复制 ) 同一 个 对 象 ， 这 可 能 导致 对 
象 图 拓扑 结构 的 变化 ， 同 时 还 可 能 严重 破坏 可 变 对 象 的 一 致 性 。 并 行 复制 的 一 个 基本 要 求 
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是 ,线程 复制 对 象 、 设 置 转发 地 址 的 操作 在 其 他 回收 线程 看 来 应 当 是 单个 不 可 分 割 操 作 ， 这 
一 要 求 的 实现 归根 结 底 在 于 转发 地 址 的 处 理 方式 。 研 究 者 们 提出 了 多 种 解决 方案 。 在 某 些 回 
收 器 中 ， 回 收 线程 先 在 对 象 的 转发 地 址 模 中 原子 化 地 写 和 人 某 个 意味 着 “繁忙 ”的 值 ， 然 后 再 
复制 对 象 并 写 人 转发 地 址 ;期间 ， 如 果 其 他 线程 读 取 到 这 一 “繁忙 ” 值 ， 则 必须 进行 自 旋 直 
到 读 取 到 真正 的 转发 地 址 。 如 果 线 程 在 尝试 原子 化 地 写 人 “繁忙 ” 值 之 前 先 对 转发 地 址 槽 进 
行 判断 ， 则 可 以 进一步 减少 同步 开销 。 另 一 种 策略 是 ， 如 果 线 程 发 现 某 一 对 象 尚 不 存在 转发 
地 址 ， 则 先 复 制 对 象 ， 然 后 再 尝试 原子 化 地 写 人 转发 地 址 ， 如 果 写 人 失败 ， 则 需 将 复制 操作 
撤销 。 这 一 策略 的 效率 取决 于 线程 在 设置 转发 地 址 时 的 冲突 概率 。 

对 于 内 存 一 致 性 模型 较 弱 的 硬件 平台 ， 确 保 某 些 操作 能 够 以 合适 的 顺序 被 其 他 处 理 器 感 
知 也 十 分 重要 ， 这 需要 编译 器 在 合适 的 位 置 插入 内 存 屏 障 。 诸 如 Compareandswap 等 原子 操 
作 通 常 都 可 以 扮演 内 存 屏 障 的 角色 ， 但 是 在 许多 场景 下 一 些 更 弱 的 指令 就 已 经 足够 。 在 选择 
具体 的 并 行 算法 时 ， 决 定 在 何 处 放置 屏障 的 复杂 性 、 屏 障 的 执行 次 数 以 及 屏障 操作 的 开销 ， 
都 是 必须 予以 考虑 的 重要 方面 。 以 牺牲 少许 性 能 为 代价 来 换取 编程 方式 的 简化 〈 从 而 确保 代 
码 的 正确 性 )， 通 常 来 说 是 值得 的 。 


14.9.6 ”并 行 清扫 与 并 行 整理 


清扫 与 整理 阶段 通常 会 在 堆 中 进行 线性 遍历 (整理 过 程 通常 需要 多 次 遍历 )， 因 而 这 两 
类 操作 比较 适合 进行 并 行 处 理 。 最 简单 的 负载 均衡 策略 可 能 是 将 堆 划分 为 与 处 理 器 数量 相等 
的 多 个 分 区 ， 但 如 果 各 分 区 内 的 存活 对 象 数量 差异 较 大 ， 则 很 容易 产生 负载 不 均衡 。 针 对 这 
一 问题 ， 我 们 可 以 使 用 分 区 中 存活 对 象 的 数量 来 近似 该 分 区 的 处 理工 作 量 ， 这 一 信息 通常 可 
以 在 标记 阶段 计算 得 出 ， 回 收 器 可 以 据 此 将 堆 划分 为 大 小 不 等 〈 但 依照 对 象 对 齐 ) 的 分 区 ， 
并 确保 每 个 分 区 的 处 理工 作 量 大 致 相等 。 

这 一 策略 有 效 的 前 提 是 每 个 分 区 可 以 独立 于 其 他 分 区 进行 处 理 ， 但 如 果 对 某 一 分 区 的 处 
理 可 能 会 破坏 其 他 分 区 所 依赖 的 信息 ， 则 算法 的 处 理 便 可 能 出 现 问题 。 例 如 ， 滑 动 整 理 回收 
器 不 能 以 任意 顺序 来 移动 对 象 ， 否 则 可 能 会 覆盖 尚未 移动 的 存活 对 象 ， 此 时 回收 器 可 能 需要 
依照 地 址 顺序 来 处 理 各 分 区 。 一 种 解决 方案 是 将 堆 划 分 为 更 细 粒 度 的 分 区 ， 每 个 整理 线程 以 
竞争 的 方式 获取 来 源 分 区 以 及 目标 分 区 。 


14.9.7 ”结束 检测 


回收 器 应 当 能 够 正确 地 检测 出 回收 过 程 中 每 个 阶段 的 结束 。 多 线程 的 并 行 增 大 了 结束 检 
测 的 复杂 度 ， 其 根本 原因 在 于 ， 在 某 一 线程 判定 当前 阶段 是 否 结束 的 同时 ， 其 他 线程 可 能 还 
会 生成 更 多 的 工作 。 不 幸 的 是 ， 正 确 地 实现 结束 检测 算法 并 非 易 事 。 一 种 (正确 的 ) 解决 方 
案 是 指定 一 个 线程 来 进行 结束 检测 ， 而 其 他 线程 则 需要 原子 化 地 设置 自身 的 某 一 旗 标 以 反映 
其 是 否 繁忙 ， 在 实现 过 程 中 还 需 特别 注意 旋 标 的 设置 、 清 除 与 线程 处 理工 作 之 间 的 顺序 关 
系 ， 在 松散 内 存 一 致 性 模型 的 平台 下 还 需 在 适当 的 位 置 插 入 内 存 屏障 。 使 用 全 局 工作 池 的 系 
统 允许 更 加 简单 的 结束 检测 机 制 ， 且 允许 任意 数量 的 线程 同时 进行 结束 检测 。 例 如 ， 灰 色 工 
作 包 系统 允许 线程 计算 全 局 工作 池 中 工作 包 的 数量 ， 如 果 全 部 工作 包 都 位 于 全 局 工作 池 中 ， 
且 其 全 部 为 空 ， 则 当前 阶段 结束 。 
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并 发 垃圾 回收 的 设计 初衷 是 降低 单 处 理 器 环境 下 的 垃圾 回收 停顿 时 间 。 一 些 早期 的 文献 
Be “FFA” (concurrent), “JFT” (parallel), “EIEH” (on-the-fly), “HF” (real-time) BIL 
个 术语 等 价 或 者 混淆 。 第 14 章 已 经 描述 了 “并 行 ”这 一 术语 在 当前 业界 的 普遍 用 法 ， 这 里 
我 们 将 对 其 余 几 个 术语 进行 定义 。 目 前 为 止 ， 我 们 均 假定 在 垃圾 回收 处 理 过 程 中 赋值 器 始终 
处 于 挂 起 状态 ， 并 且 只 有 当 所 有 回收 线程 处 理 结 束 之 后 ， 赋 值 器 才能 恢复 执行 。 图 14.1 以 
条 带 图 的 方式 介绍 了 不 同类 型 的 万 物 静 止 式 回 收 : 时 间 前 进 方向 为 从 左 到 右 ， 白 色 条 带 代表 
赋值 器 的 执行 时 间 ， 其 他 颜色 条 带 代 表 回 收 器 的 执行 时 间 ， 其 中 灰色 条 带 代 表 一 个 垃圾 回收 
周期 中 回收 器 的 行为 ， 而 黑色 条 带 代 表 下 一 个 回收 周期 。 

在 第 14 章 中 ,我 们 介绍 了 一 种 通过 多 处 理 器 来 减少 回收 停顿 时 间 的 策略 ， 即 在 赋值 器 线 
程 挂 起 的 同时 ,使 用 多 个 回收 线程 并 行 处 理 一 个 回收 周期 内 的 工作 任务 ， 如 图 14.1c 所 示 。 

在 单 处 理 器 环境 下 降低 回收 停顿 时 间 的 另 一 种 策略 是 让 赋值 器 与 回收 器 交替 执行 ， 如 
图 15.1a 所 示 。 该 策略 中 的 一 个 回收 周期 会 被 分 割 为 多 个 细 粒 度 的 回收 增 量 ， 因 而 称 其 为 增 
量 回收 (incremental collection)。 但 是 ， 增 量 回 收 却 不 像 图 15.1a 直接 反映 出 来 的 那样 简单 ， 
因为 在 赋值 器 看 来 ， 回 收 周期 不 再 具有 原子 性 ， 所 以 在 相 邻 两 个 回收 增 量 之 间 ， 对 象 的 可 达 
性 可 能 会 发 生变 化 。 因 此 ， 增 量 回 收 器 必须 通过 某 种 方式 来 跟踪 对 象 图 中 可 达 对 象 的 变化 ， 
甚至 可 能 需要 重新 扫描 可 达 性 发 生变 化 的 对 象 或 者 域 。 为 解决 这 一 问题 ， 研 究 者 们 提出 了 多 
种 不 同 的 策略 。 

尽管 交替 执行 已 经 引出 了 赋值 器 和 回收 器 并 发 执行 的 问题 ， 但 在 增 量 回收 中 ， 赋 值 器 与 
回收 器 永远 不 会 并 行 ， 即 在 每 个 回收 增 量 中 赋值 器 均 处 于 挂 起 状态 。 我 们 可 以 将 这 一 特征 
推广 到 多 处 理 器 环境 下 ， 即 确保 在 每 个 回收 增 量 中 所 有 赋值 器 线程 均 处 于 挂 起 状态 ， 如 图 
15.1b 所 示 ; 与 此 同时 ， 每 个 回收 增 量 的 处 理 过 程 也 可 并 行 化 ， 如 图 15.1c 所 示 。 

从 概念 上 讲 ， 我 们 可 以 简单 地 将 单 处 理 器 环境 下 赋值 器 和 回收 器 的 交替 执行 策略 推广 到 
多 处 理 器 环境 下 ， 即 〈 多 ) 赋值 器 与 回收 器 并 行 执行 ， 但 这 里 的 主要 困难 之 处 在 于 ， 如 何 才 
能 确保 赋值 器 和 回收 器 在 对 象 图 的 拓扑 结构 方面 保持 相同 的 认 知 (对 象 可 达 性 只 是 其 中 的 一 
方面 )， 这 便 需 要 在 两 者 之 间 引 和 适当 的 同步 。 例 如 在 回收 器 工作 过 程 中 ， 如 果 赋 值 器 尝试 
更 新 某 个 仅 完 成 部 分 扫描 或 者 部 分 复制 的 对 象 ， 或 者 与 回收 器 同时 访问 某 一 元 数据 时 ， 都 可 
能 导致 不 一 致 的 出 现 。 

赋值 器 与 回收 右 之 间 的 同步 程度 (degree) 和 同步 粒度 (granularity) 影响 着 应 用 程序 的 
否 吐 量 ( 即 包括 两 者 在 内 的 整体 执行 时 间 )。 在 回收 过 程 的 某 些 阶段 ,同步 是 一 种 远 比 其 他 
方法 简单 的 处 理 方式 。 主 体 并 发 回收 ( mostly-concurrent collection) 在 每 个 回收 周期 中 会 令 
所 有 赋值 器 线程 挂 起 一 小 段 时 间 (通常 是 在 回收 周期 的 开始 阶段 )， 回 收 器 将 在 这 段 时 间 内 
完成 线程 栈 扫描 等 操作 ， 而 在 其 他 时 间 ， 赋 值 器 则 可 以 与 回收 器 同时 执行 ， 从 而 减少 了 两 者 
之 间 的 同步 开销 。 主 体 并 发 回收 既 可 以 是 整体 式 的 ( 见 图 15.1d)， 也 可 以 是 增 量 式 的 ( 见 图 
15.1e),( 期 望 停顿 时 间 较 短 的 ) 万 物 静止 阶段 可 以 确保 所 有 赋值 器 线程 同时 感知 到 回收 过 程 





272 #1IS# 


的 开始 。 

如 果 彻 底 消除 回 收 过 程 中 的 万 物 静 止 阶段 ， 则 回收 过 程 就 成 为 纯粹 的 并 发 即时 回收 (on- 
the-fly collection)， 此 时 不 论 在 任何 阶段 ， 回 收 器 都 将 与 赋值 器 并 行 ( 见 图 15.1f)， 即 时 回 
收 过 程 也 可 以 是 增 量 式 的 〈 见 图 15.1g)。 白 色 条 带 中 的 竖 线 意 味 着 在 每 个 回收 周期 的 开始 阶 
段 ， 每 个 赋值 器 线程 依然 可 能 需要 与 回收 器 进行 同步 ， 但 整个 系统 将 不 存在 全 局 的 万 物 静 止 
阶段 2 。 





g) 即时 增 量 回收 
图 15.1 增 量 回收 与 并 发 回收 。 每 个 条 带 代 表 一 个 处 理 器 的 执行 过 程 ， 带 颜色 的 区 域 代 表 不 同 的 垃圾 回 
收 周期 


15.1 并 发 回收 的 正确 性 


正确 的 并 发 回收 算法 必须 满足 两 个 条 件 : 

o 安全 性 要 求 回收 器 至 少 必须 保留 所 有 可 达 对 象 ; 

© 存活 性 要 求 一 个 回收 周期 最 终 必须 能 够 结束 。 

控制 赋值 器 和 回收 器 交替 执行 的 能 力 是 确保 并 发 回收 器 正确 执行 的 必要 条 件 。 在 并 发 回 
收 算法 中 ， 赋 值 器 和 回收 器 的 各 项 操作 必须 是 原子 化 的 ， 只 有 这 样 ， 我 们 才能 将 它们 之 间 的 


O 并 发 回收 在 历史 上 曾经 与 即时 回收 等 价 [Dijkstra 等 ，1976，1978 ; Benair，1984]， 但 在 当前 ， 即 时 回收 通常 
特 指 不 会 同时 将 所 有 赋值 器 线程 挂 起 的 垃圾 回收 。 
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交替 操作 看 作 是 由 单个 赋值 器 〈《 和 单个 回收 器 ) 所 执行 的 ， 同 时 不 失 一 般 性 。 回 收 算法 可 以 
使 用 任意 一 种 能 够 确保 这 些 原子 操作 按 序 执行 的 调度 算法 ， 因 此 在 算法 的 具体 实现 中 ， 究 竟 
选择 何 种 并 发 控制 策略 便 存 在 较 大 的 自由 度 。 为 确保 这 些 操作 满足 原子 化 要 求 ， 最 简单 的 方 
法 可 能 是 增 量 式 地 进行 垃圾 回收 ， 即 令 回收 器 与 赋值 器 交替 执行 ， 并 确保 在 每 个 回收 增 量 运 
行 中 所 有 赋值 器 线程 均 处 于 挂 起 状态 。 当 然 还 有 一 些 其 他 的 策略 可 以 满足 更 细 粒 度 的 同步 要 
求 ， 具 体 实 现 方法 可 参见 第 13 章 。 


15.1.1 三 色 抽 和 象 回顾 
推导 并 发 回收 正确 性 最 简单 的 方法 是 使 用 三 色 抽 象 ， 它 是 所 有 赋值 器 与 回收 器 都 必须 遵 
守 的 不 变 式 。 所 有 并 发 回收 器 都 必须 遵守 三 色 抽 象 不 变 式 中 的 某 些 要 求 ， 除 此 之 外 ， 回 收 占 
还 必须 能 够 (安全 地 ) 保留 所 有 可 达 对 象 ， 即 使 赋值 器 在 回收 过 程 中 修改 了 这 些 对 象 。 回 顾 
三 色 抽 象 我 们 可 知 : 
© 白色 对 象 尚未 被 回收 器 访问 到 ， 在 回收 周期 的 开始 阶段 ， 所 有 对 象 均 为 白色 ， 而 当 
回收 周期 结束 时 ， 所 有 白色 对 象 均 为 不 可 达 对 象 。 
© 灰色 对 象 已 经 被 回收 器 访问 过 ， 但 回收 器 仍 需 对 其 中 的 一 个 或 者 多 个 域 进行 扫 描 〈 它 
们 可 能 指向 其 他 白色 对 象 ) 。 
e 黑色 对 象 已 经 被 回收 器 访问 过 ， 且 其 所 有 域 都 已 被 扫描 过 。 黑 色 对 象 的 任何 一 个 指 
针 域 都 不 可 能 直接 指向 白色 对 象 。 黑 色 对 象 永远 不 会 被 回收 器 重新 扫描 ， 除 非 它 的 
颜色 发 生变 化 。 
我 们 可 以 把 回收 过 程 地 看 作 是 回收 器 以 灰色 对 象 为 “ 波 面 ”(wavefront) 并 不 断 向 前 推进 
的 过 程 ， 这 一 波 面 同 时 也 是 黑色 对 象 (在 某 一 时 刻 可 达 ， 且 已 经 被 回收 器 扫描 过 ) 和 白色 对 
象 (尚未 被 回收 器 访问 过 ) 的 边界 。 如 果 没 有 赋值 器 并 发 修改 操作 的 干扰 ， 回 收 周期 的 顺利 
结束 将 不 存在 任何 问题 。 但 并 发 回收 的 核心 问题 在 于 ， 由 于 赋值 器 会 在 回收 过 程 中 并 发 更 新 
对 象 图 ， 所 以 赋值 器 和 回收 器 可 能 会 在 对 象 图 的 拓扑 结构 方面 产生 不 同 的 认 知 ， 此 时 再 以 灰 
色 波 面 作 为 黑色 对 象 与 白色 对 象 的 边界 便 不 再 适合 。 
回顾 第 1 章 所 定义 的 赋值 器 write 操作 ,我 们 可 以 对 其 进行 适当 修改 ， 即 在 域 中 写 人 新 
值 之 前 先 读 取 其 中 原 有 的 值 : 


atomic Write(src, i, new): 
old + srcli] 
src[i] + new 


Write 操作 在 对 象 src 的 src li] 域 中 插入 了 指针 src 一 new， 其 副作用 是 删除 了 同一 域 
中 原 有 的 指针 src 一 old, atomic 关键 字 意 味 着 old 和 new 指针 将 在 一 瞬间 完成 交换 ， 期 间 
不 会 穿插 其 他 额外 的 赋值 器 /回收 器 操作 。 对 于 大 多 数 硬 件 而 言 ， 存 储 操 作 天 然 就 是 原子 化 
的 ， 因 而 write 操作 无 需 额外 引入 其 他 显 式 同 步 操作 。 

当 赋 值 器 与 回收 器 并 发 执行 时 ， 如 果 赋 值 器 所 修改 的 对 象 位 于 追踪 波 面 之 前 一 一 包括 
灰色 对 象 (回收 器 尚未 对 其 内 部 指针 域 进行 扫 描 ) 和 白色 对 象 (回收 器 尚未 访问 过 这 些 对 
象 ) 一 一 则 回收 的 正确 性 不 会 受到 影响 ， 因 为 回收 器 终究 会 在 某 一 时 刻 访 问 这 些 对 象 (如 果 
这 些 对 象 依然 可 达 )。 即 使 赋值 器 所 修改 的 对 象 位 于 追踪 波 面 之 后 一 一 即 黑 色 对 象 (回收 器 
已 完成 对 其 内 部 域 的 扫描 ) 一 一 只 要 其 所 插入 或 删除 的 指针 目标 对 象 为 黑色 或 者 灰色 ( 即 回 
收费 已 经 判定 该 对 象 可 达 )， 也 不 会 存在 任何 问题 。 但 是 ， 除 此 之 外 的 其 他 指针 更 新 操作 极 
有 可 能 导致 赋值 器 和 回收 器 对 存活 对 象 集 合 产生 不 一 致 的 认 知 [Wilson，1994]， 进 而 导致 存 
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活 对 象 被 错误 地 回收 。 下 面 我 们 将 考察 一 个 具体 案例 。 


15.1.2 ”对 象 丢失 问题 


图 15.2 展示 了 两 种 将 白色 指针 插入 到 追踪 波 面 之 后 的 场景 。 图 15.2a 所 描述 的 情况 是 : 
对 于 原本 从 灰色 对 象 直接 可 达 的 对 象 ， 如 果 赋 值 器 先 将 其 引用 插 人 到 波 面 之 后 ， 然 后 再 从 灰 
色 对 象 中 删除 其 引用 ， 则 可 能 导致 该 对 象 “丢失 ”。 在 初始 状态 下 ， 堆 中 存在 一 个 黑色 对 象 
x 以 及 一 个 灰色 对 象 Y， 其 中 后 者 已 被 标记 为 从 根 可 达 ， 还 有 一 个 白色 对 象 2z， 可 直接 从 Y 
可 达 。 在 操作 D1 H, 赋值 器 从 灰色 对 象 Y 中 加 载 指针 a， 并 将 其 插入 到 对 象 x 中 ， 最 终 得 
到 从 x 指向 z 的 指针 b。 在 操作 D2 中 ， 赋 值 器 将 尚未 扫描 过 的 指针 a 从 Y 中 删除 ， 而 该 指 
针 却 是 唯一 一 个 从 灰色 对 象 指向 z 的 指针 。 在 操作 D3 中 ， 回 收 器 完成 对 象 上 的 扫描 并 将 其 
着 为 黑色 ， 标 记 阶 段 就 此 结束 。 而 在 清扫 阶段 ， 即 使 白色 对 象 z 依然 经 由 指针 b 可 达 ， 回 收 
器 仍 会 错误 地 将 其 回收 。 

图 15.2b 所 描述 的 情况 是 : 对 于 经 由 一 条 传递 指针 链 从 灰色 对 象 可 达 的 对 象 ， 如 果 赋 值 
器 先 将 其 引用 插 和 人 到 追踪 波 面 之 后 ， 然 后 再 删除 该 指针 链 上 的 某 个 指针 ， 也 可 能 导致 该 对 象 
“丢失 ”。 与 15.2a 所 示 的 情况 不 同 ， 此 时 赋值 器 并 未 删除 任何 直接 指向 已 丢失 对 象 的 指针 。 
在 初始 状态 下 ， 堆 中 存在 一 个 黑色 对 象 P 以 及 一 个 灰色 对 象 a。， 其 中 后 者 已 被 标记 为 从 根 可 
ko HERZ R 直接 从 & 可 达 ， 而 白色 对 象 s 则 需要 经 由 R 从 可 达 。 在 操作 T1 中 ， 赋 值 
器 从 白色 对 象 R 中 加 载 指针 a 并 将 其 插 和 对象 中 ,最终 得 到 从 ?指向 s 的 指针 e。 在 操作 
T2 中 ， 赋 值 器 删除 指向 R 的 指针 <， 该 操作 导致 从 灰色 对 象 @ 到 s 的 唯一 一 条 指针 链 被 破 
坏 。 在 操作 T3 中 ， 回 收 器 完成 对 象 的 扫描 并 将 其 置 为 黑色 ， 标 记 阶 段 就 此 结束 。 而 在 清 
扫 阶 段 ， 即 使 白色 对 象 s 依然 经 由 指针 。 可 达 ， 回 收 器 仍 会 错误 地 将 其 回收 。 





Di: Write(X,b,Read (Ya)) D2: Write (Y,anull) D3: scan(Y) 
a) 直接 删除 从 灰色 对 象 指向 白色 对 象 的 指针 而 导致 对 象 丢失 


ts ag. a 


ee a) 全 


T1: Write (Pe,Read (R,d)) T2: Write (Q,c,nu11) T3: scan (Q) 
b) 破坏 从 灰色 对 象 到 白色 对 象 的 间接 指针 链 而 导致 对 象 丢失 


图 15.2 ”对象 丢失 问题 。 如 果 赋 值 器 操作 破坏 了 白色 对 象 与 灰色 对 象 之 间 的 可 达 关 系 ， 则 可 能 导致 回收 
器 错误 地 回收 可 达 对 象 
十 分 感谢 Springer Science+Business Media 的 授权 : Vechev 等 [2005]， 图 3-4， 第 584-5 页 。 
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Wilson[1994] 发 现 ， 在 追踪 过 程 中 ， 只 有 当 如 下 两 个 条 件 同 时 满足 时 才 会 出 现 对 象 丢失 
问题 : 

o 条 件 1: 赋值 器 将 某 一 指向 白色 对 象 的 引用 写 人 黑色 对 象 ; 

© 条 件 2: 从 灰色 对 象 出 发 ， 最 终 到 达 该 白色 对 象 的 所 有 路 径 都 被 赋值 器 破坏 。 

当 赋 值 器 将 白色 指针 (〈 即 指向 白色 对 象 的 指针 ) 插入 到 黑色 对 象 时 ， 如 果 回 收 器 无 法 通 
过 其 他 指针 遍历 到 该 对 象 ， 则 会 出 现 对 象 丢 失 问题 。 也 就 是 说 ， 即 使 该 白色 对 象 (从 黑色 对 
象 ) 可 达 ( 即 条 件 1), 但 由 于 回收 器 不 会 重新 扫描 黑色 对 象 ， 所 以 其 永远 不 会 发 现 这 一 事 
实 。 因 此 ， 如 果 回 收 器 最 终 能 够 遍历 到 该 白色 对 象 ， 唯 一 可 能 的 途径 便 是 从 某 个 已 经 遍历 到 
但 尚未 完成 扫描 的 对 象 ( 即 灰色 对 象 ) 出 发 ， 经 由 一 条 尚未 访问 过 的 路 径 ( 即 由 白色 指针 构 
成 的 指针 链 ) 并 最 终 到 达 该 对 象 ， 但 条 件 2 却 致使 堆 中 不 存在 这 样 一 条 路 径 。 


15.1.3” 强 三 色 不 变 式 与 弱 三 色 不 变 式 


为 确保 回收 器 不 会 错误 地 回收 存活 对 象 ， 我 们 必须 确保 导致 对 象 丢 失 的 两 个 条 件 不 会 同 
时 出 现 。 要 确保 回收 器 不 会 漏 掉 任 何 可 达 对 象 ， 其 必须 能 够 找 出 所 有 被 黑色 对 象 引 用 的 白色 
对 象 。 为 此 ， 只 要 能 确保 所 有 被 黑色 对 象 引用 的 白色 对 象 不 被 删除 ， 它 们 将 不 会 被 回收 器 遗 
漏 ， 此 时 这 些 白 色 对 象 将 处 于 灰色 保护 (grey protected) 状态 。 对 于 直接 从 灰色 对 象 可 达 ， 
或 者 经 由 一 条 指针 链 从 灰色 对 象 可 达 的 白色 对 象 ， 其 天 然 不 存在 对 象 丢 失 问 题 。 因 此 ， 可 能 
导致 对 象 丢失 问题 产生 的 条 件 2 将 不 可 能 出 现 ， 因 而 回收 器 只 需 满足 : 

e 弱 三 色 不 变 式 ( weak tricolour invariant): 所 有 被 黑色 对 象 引用 的 白色 对 象 都 处 于 灰 

色 保 护 状态 ( 即 直接 或 间接 从 灰色 对 象 可 达 )。 

非 复制 式 回 收 器 天 然 存在 一 个 优势 ， 即 一 旦 某 个 指针 的 目标 对 象 变 成 灰色 或 者 黑色 ， 则 
该 指针 将 自动 成 为 灰色 / 黑色 指针 ©。 因此 ， 黑 色 对 象 中 的 白色 指针 将 不 会 成 为 问题 ， 因 为 它 
们 所 指向 的 、 处 于 灰色 保护 状态 的 白色 对 象 最 终 都 将 被 回收 器 着 色 ， 即 在 追踪 过 程 结束 之 
前 ， 黑 色 对 象 中 的 所 有 白色 指针 最 终 都 将 变 成 黑色 。 

并 发 复制 式 回 收 器 则 稍 加 复杂 ， 因 为 在 回收 结束 时 ， 每 个 存活 对 象 将 存在 两 个 副本 (来 
源 空间 中 为 白色 副本 ， 目 标 空间 中 为 黑色 副本 )， 此 时 回收 器 将 把 白色 副本 与 其 他 垃圾 一 起 
回收 。 从 概念 上 讲 ， 回 收 器 永远 不 会 重复 访问 黑色 对 象 ， 因 此 ， 并 发 复制 式 回 收 器 要 满足 正 
确 性 要 求 ， 其 必须 确保 永远 不 会 在 目标 空间 的 黑色 对 象 中 写 入 白色 来 源 空 间 指针 ( 即 指向 来 
源 空间 中 白色 对 象 的 指针 )， 否 则 在 回收 结束 时 ， 目 标 空间 的 黑色 对 象 中 将 存在 指向 (已 被 
回收 的 ) 来 源 空间 的 悬挂 指针 。 为 此 回收 器 必须 满足 : 

© 强 三 色 不 变 式 (strong tricolour invariant); 不 存在 从 黑色 对 象 指向 白色 对 象 的 指针 。 

满足 强 三 色 不 变 式 要求 的 回收 器 必然 满足 弱 三 色 不 变 式 ， 但 反之 不 然 。 赋 值 器 在 黑色 对 
象 中 插入 白色 指针 是 造成 对 象 丢失 问题 的 根源 ， 因 而 只 要 我 们 能 避免 这 一 情况 的 出 现 ， 便 
可 解决 对 象 丢失 问题 。 强 三 色 不 变 式 不 仅 适 用 于 复制 式 回收 器 ， 同 时 也 适用 于 非 复 制式 回 
We Ai o 

在 图 15.2 所 示 的 两 种 情况 中 ， 赋 值 器 均 会 在 黑色 对 象 中 写 人 某 一 白色 对 象 的 引用 (CDI/ 
Tl )， 从 而 打破 了 强 三 色 不 变 式 ; 之 后 赋值 器 又 破坏 了 所 有 从 灰色 到 达 该 白色 对 象 的 路 径 
( D2/T2 )， 进 而 又 打破 了 弱 三 色 不 变 式 。 这 两 步 操 作 最 终 导致 (可 达 ) 黑色 对 象 包含 了 指向 


O 因为 在 非 复制 式 回收 器 中 ， 回 收 器 不 会 修改 指向 存活 对 象 的 指针 。 一 一 译 者 注 
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(可 能 是 垃圾 的 ) 白色 对 象 的 指针 ， 进 而 破坏 了 回收 器 的 正确 性 。 要 解决 这 一 问题 ， 赋 值 器 
必须 在 写 人 指向 白色 对 象 的 指针 时 (D1/T1 )， 或 者 在 删除 可 达 对 象 的 可 达 路 径 时 (D2/T2 ) 
引入 额外 的 操作 。 


15.1.4 回收 精度 


对 于 以 不 同 策略 来 满足 安全 性 与 存活 性 要 求 的 不 同 回收 算法 ， 它 们 在 回收 的 精度 
(precision， 由 回收 结束 时 剩余 对 象 的 集合 决定 )、 效 率 (efficiency， 意 味 着 吞吐 量 )、 原 子 化 
程度 (atomicity， 意 味 着 并 发 程度 ) 等 方面 均 会 存在 不 同 表 现 。 不 同 的 回收 精度 意味 着 在 回 
收 结束 时 ， 剩 余 对 象 集合 将 是 存活 对 象 集合 的 一 个 超 集 ， 进 而 影响 垃圾 回收 的 及 时 性 。 万 物 
静止 式 回收 器 可 以 达到 最 大 化 的 回收 精度 ( 即 所 有 不 可 达 对 象 都 将 得 到 回收 )， 但 其 却 丧 失 
了 任何 与 赋值 器 并 发 执行 的 可 能 性 。 细 粒度 的 原子 性 可 以 提高 回收 器 与 赋值 器 之 间 的 并 发 程 
度 ， 但 其 代价 是 导致 更 多 的 不 可 达 对 象 残留 在 堆 中 ， 且 关键 操作 的 原子 化 也 会 产生 额外 的 开 
销 。 确 定 追 踪 过 程 中 最 小 但 满足 要 求 的 临界 区 集合 存在 一 定 难 度 ，Vechev 等 [2007] 展示 了 
如 何 将 这 一 查找 过 程 半 自动 化 。 对 于 在 回收 周期 结束 时 依然 存在 的 不 可 达 对 象 ， 我 们 将 其 称 
为 浮动 垃圾 ， 尽 管 它 们 并 不 会 严重 影响 到 回收 器 的 正确 性 ， 但 通常 我 们 不 希望 堆 中 存在 过 多 
的 浮动 垃圾 。 对 于 并 发 回收 器 而 言 ， 浮 动 垃圾 是 否 能 在 未 来 几 个 回收 周期 中 得 到 回收 ， 是 检 
验 回 收 器 完整 性 的 一 个 重要 指标 。 


15.1.5 “赋值 器 颜色 


在 对 回收 算法 进行 归 类 时 ， 如 果 把 回收 器 也 看 作 是 对 象 ， 则 为 赋值 器 根 引 入 颜色 的 概念 
也 是 十 分 有 用 的 。 如 果 某 一 赋值 器 尚未 被 回收 器 扫描 “过 ( 即 回收 器 的 根 尚 未 被 追踪 到 )， 或 
者 尽管 已 经 扫描 过 但 仍 需 重新 扫描 ， 则 称 其 为 灰色 赋值 器 。 灰 色 赋值 器 的 根 所 引用 的 对 象 既 
可 能 是 白色 ,也 可 能 是 灰色 或 者 黑色 。 黑 色 赋 值 器 已 经 由 回收 器 扫描 过 ， 回 收 器 已 完成 其 根 
的 追踪 ， 且 不 会 再 次 对 其 进行 扫描 。 强 三 色 不 变 式 要 求 黑色 赋值 器 的 根 只 能 引用 灰色 或 者 黑 
色 对 象 ， 但 不 能 引用 白色 对 象 ; 弱 三 色 不 变 式 允 许 黑色 赋值 器 的 根 引用 白色 对 象 ， 但 前 提 是 
这 些 白色 对 象 必须 处 于 灰色 保护 状态 。 

赋值 器 的 颜色 会 对 回收 周期 的 结束 产生 影响 。 从 定义 上 讲 ， 如 果 某 种 并 发 回收 器 允许 灰 
色 赋 值 器 的 存在 ， 则 其 必须 在 回收 结束 之 前 重新 扫描 该 赋值 器 的 根 ， 而 如 果 重 新 扫描 过 程 中 
发 现 了 新 的 灰色 或 者 白色 对 象 ， 回 收 器 还 需 对 新 发 现 的 对 象 进行 追 踪 ， 但 是 在 新 的 追踪 过 程 
中 ， 赋 值 器 依然 可 能 在 其 根 中 插入 新 的 非 黑 色 引用 ， 因 而 在 追踪 过 程 结 束 后 ， 回 收 器 仍 需 再 
次 扫描 其 根 。 对 于 允许 灰色 赋值 器 存在 的 算法 ， 在 最 差 情 况 下 ， 回 收 器 只 有 将 所 有 赋值 器 线 
程 挂 起 才能 完成 其 根 的 最 终 扫描 。 

到 目前 为 止 ， 我 们 均 假 设 系统 中 仅 存在 一 个 赋值 器 。 但 在 即时 回收 算法 中 ， 由 于 回收 器 
不 能 同时 挂 起 所 有 赋值 器 线程 并 扫描 其 根 ， 所 以 必须 区 别 对 待 每 个 赋值 器 线程 ， 此 时 回收 器 
便 可 能 同时 处 理 灰 色 (尚未 完成 扫描 ) 和 黑色 (已 完成 扫描 ) 两 种 不 同 颜色 的 赋值 器 线程 。 另 
外 ， 某 些 回 收 咒 还 会 将 单个 赋值 器 线程 的 根 划分 为 已 扫描 分 区 (黑色 ) 和 未 扫描 分 区 (灰色)， 
例如 将 线程 栈 帧 项 部 的 已 扫描 区 域 标记 为 黑色 ， 其 他 未 扫描 区 域 则 仍 为 灰色 。 如 果 线 程 通过 
函数 返回 或 者 栈 展 开 的 方式 进入 到 灰色 分 区 ， 则 回收 器 必须 对 新 的 栈 顶 区 域 进行 扫描 。 


15.1.6 ”新 分 配对 和 象 的 颜色 
分 配 过 程 会 导致 赋值 器 持 有 新 分 配对 象 的 引用 。 在 GR / 5) 三 色 不 变 式 的 要 求 下 ， 新 
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分 配 的 对 象 也 必须 被 赋予 适当 的 颜色 ， 因 此 赋值 器 的 颜色 也 会 影响 其 所 分 配对 象 的 颜色 。 新 
分 配对 象 的 颜色 会 影响 其 在 不 可 达 时 的 回收 及 时 性 : 如 果 新 分 配 的 对 象 为 黑色 或 者 灰色 ， 即 
使 赋值 如 直接 将 其 抛弃 而 并 未 将 其 写 入 堆 中 ， 该 对 象 也 不 可 能 在 当前 回收 周期 中 得 到 回收 
(因为 黑色 和 灰色 意味 着 可 达 )。 灰 色 赋 值 器 可 以 分 配 白色 对 象 以 避免 不 必要 的 新 对 象 保留 ; 
而 黑色 赋值 器 则 不 能 分 配 任何 白色 对 象 ( 强 三 色 不 变 式 和 弱 三 色 不 变 式 均 要 求 如 此 )， 唯 一 
的 例外 是 (在 弱 三 色 不 变 式 下 ) 确保 赋值 器 将 该 白色 对 象 的 引用 写 人 波 面 之 前 的 某 一 存活 对 
象 中 ， 只 有 这 样 才 能 确保 回收 需 最 终 能 够 遍历 到 该 对 象 ， 和 否则 即使 该 白色 对 象 被 黑色 对 象 所 
引用 ， 回 收费 依然 会 错误 地 将 其 回收 。 需 要 注意 的 是 ， 新 分 配对 象 在 初始 状态 下 不 会 包含 任 
何 外 部 引用 ， 因 而 在 分 配 时 将 其 着 着 为 黑色 通常 是 安全 的 。 


15.1.7 基于 增 量 更 新 的 解决 方案 


在 解决 对 象 丢失 问题 的 各 种 策略 中 ， 某 些 策略 将 注意 力 集中 在 图 15.2 中 的 D1/T1 操作 
E, Wilson[1994] 将 此 类 解决 方案 称 为 增 量 更 新 (incremental update) 技术 。 此 类 解决 方案 
会 把 赋值 器 对 已 知 存 活 对 象 集合 的 增 量 修改 通知 给 回收 器 ， 进 而 产生 了 需要 额外 (重新 ) 扫 
描 的 对 象 。 如 果 某 一 对 象 的 引用 被 插入 到 追踪 波 面 之 后 的 黑色 对 象 中 ， 增 量 更 新 方案 会 保守 
地 将 其 当 作 存活 对 象 ， 因 而 即使 赋值 器 破坏 了 该 对 象 在 追踪 波 面 之 前 的 所 有 可 达 路 径 ， 也 不 
会 产生 对 象 丢 失 问题 ， 因 此 增 量 更 新 技术 满足 强 三 色 不 变 式 的 要 求 。 此 类 解决 方案 使 用 赋值 
器 写 屏 障 来 拦截 将 白色 指针 插入 黑色 对 象 的 行为 ， 以 图 15.2a 为 例 ， 写 屏障 会 将 指针 b 的 目 
标 对 象 着 为 黑色 ， 从 而 避免 产生 从 黑色 对 象 指 向 白色 对 象 的 指针 。 

对 于 黑色 赋值 器 从 堆 中 加 载 引用 的 操作 ， 我 们 可 以 将 其 看 作 是 在 黑色 对 象 ( 即 赋值 器 本 
身 ) 中 插入 指针 的 操作 ， 因 而 增 量 更 新 技术 需要 使 用 读 屏 障 来 拦截 将 白色 指针 插入 黑色 赋值 
器 的 操作 。 


15.1.8 基于 起 始 快照 的 解决 方案 


还 有 一 些 策略 致力 于 在 D2/T2 赋值 操作 中 解决 对 象 丢失 问题 ， 此 类 解决 方案 会 保留 回 
收 开 始 时 刻 的 存活 对 象 集合 ，Wilson 将 其 称 为 起 始 快照 ( snapshot-at-the-beginning) 技术 。 
当 赋 值 器 从 灰色 或 者 白色 对 象 〈 即 位 于 追踪 波 面 之 前 的 对 象 ) 中 删除 白色 指针 时 ， 写 屏障 会 
将 这 一 行为 通知 给 回收 器 。 如 果 某 一 指针 位 于 追踪 波 面 之 前 ， 基 于 起 始 快照 的 解决 方案 会 保 
守 地 将 其 目标 对 象 当 作 存 活 ( 非 白色 ) 对 象 ， 此 时 即使 赋值 器 将 其 引用 插入 到 追踪 波 面 之 后 ， 
也 不 会 产生 的 对 象 丢失 问题 。 此 类 解决 方案 可 以 确保 在 回收 过 程 中 ， 对 于 任意 一 个 在 回收 开 
始 时 刻 可 达 的 对 象 ， 赋 值 器 都 不 可 能 将 其 全 部 可 达 路 径 破 坏 ， 因 而 其 满足 弱 三 色 不 变 式 的 要 
求 。 基 于 起 始 快照 的 解决 方案 使 用 写 屏障 来 拦截 赋值 器 从 灰色 或 白色 对 象 中 删除 灰色 或 白色 
指针 的 行为 。 

获取 赋值 器 的 快照 意味 着 回收 器 需要 扫描 其 根 并 将 其 着 为 黑色 。 我 们 必须 在 回收 起 始 阶 
段 完 成 赋值 器 快照 的 获取 ， 并 确保 其 不 持 有 任何 白色 指针 。 否 则 ， 一旦 赋值 器 持 有 某 一 白色 
对 象 的 唯一 引用 并 将 其 写 入 黑色 对 象 ， 然 后 再 抛弃 该 指针 ， 则 会 违背 弱 三 色 不 变 式 的 要 求 。 
为 黑色 对 象 增 加 写 屏 障 可 以 捕获 这 一 插入 操作 ， 但 如 此 一 来 ， 该 方案 将 退化 到 强 三 色 不 变 式 
框架 下 。 因 此 ， 基 于 起 始 快照 的 解决 方案 将 只 人 允许 黑色 赋值 器 的 存在 。 


15.2 并 发 回收 的 相关 屏障 技术 
赋值 器 屏障 是 确保 回收 器 正确 维护 强 / 弱 三 色 不 变 式 的 基础 之 一 。Pirinen [1998] 指出 ， 
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赋值 器 屏障 需要 依赖 多 种 操作 来 应 对 指针 的 搬入 与 删除 ， 包 括 : 
e 扩大 (add to) Ki: 将 白色 对 象 着 色 (shade) 为 灰 。 对 灰色 和 黑色 对 象 再 次 着 色 不 
起 作用 。 
o 推进 (advance) 波 面 : 扫描 (scan) 对 象 并 将 其 着 为 黑色 。 
o 后 退 (retreat) 波 面 : 将 黑色 对 象 回 退 (revert) 到 灰色 。 
除 此 之 外 ， 只 有 两 种 操作 可 能 打破 强 / 弱 三 色 不 变 式 , 一 是 将 某 一 对 象 回 退 到 白色 ， 二 
是 不 经 过 扫描 便 将 某 一 对 象 着 为 黑色 。 算 法 15.1 到 15.2 枚 举 了 并 发 回收 中 的 经 典 屏 障 技 术 。 


算法 15.1 灰色 赋值 器 屏障 算法 15.2 黑色 赋值 器 屏障 
(a)Steele[1975，1976] 屏障 (a)Baker [1978] 屏障 


atomic Write(src, i, ref): 


atomic Read(src, i): 
src[i] + ref 


1 1 
2 2 ref + src[i] 
3 if isBlack(src) 3 if isGrey(src) 
4 if isWhite(ref) 4 ref + shade(ref) 
5 revert(src) 5 return ref 
(b)Boehm # [1991] 屏障 (b)Appel # [1988] 屏障 


atomic Write(src, i, ref): 
src[i] + ref 
if isBlack(src) 
revert(src) 


atomic Read(src, i): 
if isGrey(src) 
scan(src) 
return src[i] 


= eo n = 
= en = 


(c)Dijkstra $ [1976, 1978] 屏障 (c)Abraham 和 Patel [1987] / Yuasa [1990] 屏障 


atomic Write(src, i, ref): 1 atomic Write(src, i, ref): 
src[i] + ref 2 if isGrey(src) || isWhite(src) 
if isBlack(src) 3 shade(src[i]) 
shade(ref) 4 src[i] + ref 


a wr = 


Hellyer 等 [2010], doi: 10.1145/1806651.1806666. 
© 2010 Association for Computing Machinery，Inc.， 经 许可 后 转载 


15.2.1 灰色 赋值 器 屏障 技术 


我 们 首先 考虑 灰色 赋值 器 需要 用 到 的 屏障 技术 。 此 类 解决 方案 均 使 用 插入 屏障 
(insertion barrier) 9 来 拦截 向 黑色 对 象 写 人 白色 指针 的 操作 ， 从 而 满足 强 三 色 不 变 式 的 要 求 。 
由 于 赋值 器 本 身 是 灰色 的 ， 所 以 不 需要 额外 的 读 屏障 。 此 类 解决 方案 均 属于 增 量 更 新 技术 。 

è Steele[1975，1976] 提出 了 算法 15.1a 所 示 的 屏障 技术 。 该 方案 仅 简 单 地 关注 写 操作 

所 修改 的 来 源 对 象 ， 因 而 其 在 所 有 方案 中 精度 最 高 。 该 方案 不 会 改变 任何 对 象 的 可 
达 性 ， 但 它 却 会 将 黑色 来 源 对 象 重 新 着 为 灰色 ， 进 而 实现 追踪 波 面 的 后 退 。 对 于 和 白 
色目 标 对 象 而 言 ， 其 可 达 性 的 判定 将 被 推迟 到 回收 器 重新 扫描 来 源 对 象 的 过 程 中 (在 
重新 扫描 来 源 对 象 之 前 ， 该 指针 可 能 又 被 赋值 器 删除 )。 由 于 该 方案 会 导致 回收 波 面 
的 后 退 ， 所 以 其 相当 于 是 以 牺牲 回收 进度 为 代价 来 换取 回收 精度 。 


O 我 们 认为 ,“ 插 入 屏障 ”(insertion barrier) 这 一 概念 比 “ 增 量 更 新 屏障 ”( incremental update barrier) 更 加 清晰 。 类 似 
地 ， 我 们 更 加 喜欢 “删除 屏障 ”( deletion barrier) 这 一 术语 而 非 “起 始 快照 屏障 ”( snapshot-at-the-beginning barrier) 。 
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Boehm 等 [1991] 实现 了 Steele[1975, 1976] 屏障 的 一 个 变种 ， 如 算法 15.1b 所 示 ， 
其 不 同 之 处 在 于 该 屏障 会 忽略 新 插入 指针 的 颜色 。 该 屏障 最 初 的 实现 版 本 是 通过 虚 
拟 内 存 脏 标记 来 记录 脏 页 ， 从 而 无 需 显 式 地 对 赋值 器 在 堆 中 的 写 操作 进行 拦截 ， 但 
这 一 版 本 的 写 屏 障 不 会 事先 判断 其 所 回 退 的 对 象 是否 为 黑色 ， 因 而 其 精度 较 低 。 在 
回收 结束 阶段 ，Boehm 等 需要 通过 万 物 静 止 的 方式 来 重新 扫描 脏 页 。 

Dijkstra 等 [1976，1978] 提出 了 算法 15.1c 所 示 的 屏障 技术 。 对 于 插入 到 黑色 对 象 中 的 
白色 指针 ， 不 论 其 在 未 来 是 否 会 被 赋值 器 删除 ， 该 屏障 都 会 将 其 标记 为 可 达 ( 即 着 色 )。 
与 Steele 的 屏障 技术 相 比 ， 尽 管 该 策略 的 精度 较 低 ， 但 它 却 有 助 于 回收 波 面 的 推进 。 
该 屏障 的 最 初版 本 在 对 目标 对 象 进行 着 色 时 会 忽略 来 源 对 象 的 颜色 ， 进 一 步 降低 了 回 
收 精度 ,但 忽略 这 一 额外 检测 的 好 处 在 于 可 以 省 略 对 原子 性 的 依赖 ， 因 为 写 和 指针 和 
着 色 这 两 步 操 作 各 自 天 然 都 是 原子 化 的 。 此 处 还 有 一 个 十 分 微妙 的 问题 需要 注意 ， 即 
指针 写 人 操作 必须 先 于 着 色 操 作 执 行 。 如 果 将 这 两 步 操作 颠倒 ， 那 么 在 ree 被 着 色 之 
后 、 写 入 src 之 前 ,一旦 回收 器 启动 新 一 轮回 收 ， 其 便 会 将 包括 ret 在 内 的 所 有 对 象 
重 置 为 白色 。 一 旦 回收 器 扫描 src 的 操作 发 生 在 屏障 的 写 和 操作 之 前 ， 则 会 出 现 从 黑 
色 对 象 指向 白色 对 象 的 指针 ， 这 显然 违背 了 强 三 色 不 变 式 的 要 求 [Stenning，1976]。 


15.2.2 黑色 赋值 器 屏障 技术 


接 下 来 ， 我 们 将 介绍 三 种 黑色 赋值 器 相关 的 屏障 技术 。 前 两 种 屏障 均 使 用 增 量 更 新 策 
略 来 满足 强 三 色 不 变 式 的 要 求 ， 它 们 都 需要 使 用 读 屏 障 来 阻止 赋值 器 载 人 白色 指针 《〈 即 拦 
截 将 白色 指针 插 和 人 到 黑色 赋值 器 的 行为 ) ; 第 三 种 屏障 基于 起 始 快照 技术 ， 其 使 用 删除 屏障 
(deletion barrier) 来 拦截 堆 中 的 指针 写 操作 ， 并 以 此 满足 弱 三 色 不 变 式 的 要 求 ( 即 阻止 赋值 
器 将 起 始 快照 中 某 一 可 达 对 象 的 唯一 可 达 路 径 破坏 )。 弱 三 色 不 变 式 允 许 黑色 赋值 器 持 有 白 
色 指针 ， 赋 值 器 被 着 为 黑色 意味 着 回收 器 无 需 对 其 进行 重新 扫描 ， 因 此 如 果 某 一 白色 对 象 被 
黑色 赋值 器 所 引用 ， 其 必然 处 于 灰色 保护 状态 。 


Baker[1978] 提出 了 算法 15.2a 所 示 的 读 屏 障 (赋值 器 插入 屏障 )。 对 于 回收 过 程 中 被 
赋值 器 读 取 的 白色 对 象 ， 即 使 赋值 器 并 未 将 其 插入 到 追踪 波 面 之 后 ， 该 屏障 仍 会 将 
其 着 色 ， 因 而 其 精度 会 比 Dijkstra 等 的 方案 更 低 。 该 屏障 最 初 是 为 复制 式 回收 器 而 设 
计 ， 其 着 色 操 作 会 将 白色 对 象 从 来 源 空 间 复制 到 目标 空间 ， 因 而 shade 方法 所 返回 的 
将 是 目标 空间 中 对 象 新 副本 的 地 址 。 

Appel 等 [1988] 实现 了 Baker 读 屏 障 的 一 个 粗 粒度 变种 〈 即 精度 更 低 )， 如 算法 15.2b 
所 示 。 针 对 赋值 器 访问 堆 中 灰色 页 的 操作 ， 该 方案 使 用 操作 系统 的 虚拟 内 存 页 保护 
原 语 为 其 设置 陷阱 ， 从 而 省 去 了 软件 层面 的 读 屏 障 。 陷 阱 处 理 函 数 会 对 灰色 页 进行 
扫描 (并 解除 保护 )， 然 后 再 恢复 赋值 器 的 执行 。 该 屏障 可 以 应 用 在 复制 式 回收 器 中 ， 
因为 其 扫描 操作 可 以 对 来 源 对 象 中 所 有 指向 来 源 空间 的 指针 进行 转发 ， 包 括 赋值 器 
正在 加 载 的 域 。 

Abraham 和 Patel [1987], Yuasa [1990] 各 自 独 立 提 出 了 算法 15.2c 所 示 的 删除 屏障 。 
如 果 在 图 15.2 所 示 的 两 种 情况 中 使 用 该 屏障 ， 则 D2 操作 将 直接 把 对 象 z 着 为 灰色 ， 
T2 操作 将 把 对 象 R 着 为 灰色 ， 因 而 对 象 s 最 终 可 以 得 到 着 色 。 在 回收 过 程 中 ， 即 使 
赋值 器 删除 了 指向 某 一 对 象 的 最 后 一 个 指针 ， 从 而 导致 该 对 象 不 可 达 ， 删 除 屏 障 依 
然 会 将 其 着 色 ， 因 而 该 屏障 的 精度 最 低 。 对 于 插入 屏障 所 保留 的 对 象 ， 回 收 器 至 少 
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可 以 确定 赋值 器 曾 在 其 中 执行 了 某 些 回收 相关 操作 〈 获 取 或 写 人 对 象 的 引用 )， 但 删 
除 屏障 所 保留 的 对 象 却 不 一 定 被 赋值 器 操作 过 。 例 如 在 图 15.2b 中 ， 为 对 象 R 着 色 将 
导致 其 成 为 浮动 垃圾 (因为 其 不 再 可 达 但 无 法 得 到 回收 )， 而 这 一 操作 唯一 的 目的 却 
是 为 了 保留 对 象 s。 在 这 一 快照 屏障 的 最 初 实现 版 本 中 ， 着 色 操 作 是 无 条 件 的 ， 即 无 
论 来 源 对 象 是 何 种 颜色 ， 该 屏障 都 会 将 覆盖 指针 的 目标 对 象 着 色 。Abraham 和 Patel 
基于 虚拟 内 存 写 时 复制 机 制 实现 了 这 一 快照 屏障 。 


15.2.3 ”屏障 技术 的 完整 性 


Pirinen [1998] 指出 ， 上 述 各 种 屏障 技术 已 经 吉 括 了 并 发 回收 中 所 有 可 能 的 屏障 策略 ， 
同时 他 还 提出 了 将 读 写 屏 障 相 结合 的 方案 ， 如 算法 15.3 所 示 。 该 方案 为 黑色 赋值 器 引入 了 
读 屏障 ， 同 时 在 堆 中 设置 了 删除 屏障 。 该 方案 中 ， 如 果 堆 中 存在 从 黑色 对 象 指向 白色 对 象 的 
指针 ， 则 必然 存在 至 少 一 个 灰色 对 象 会 直接 引用 该 白色 对 象 ， 因 而 其 满足 弱 三 色 不 变 式 的 要 
求 〈 这 一 保障 比 弱 三 色 不 变 式 的 基本 要 求 要 稍 强 一 些 ， 因 为 后 者 只 要 求 从 灰色 对 象 到 白色 可 
达 对 象 之 间 存 在 至 少 一 条 指针 链 ， 而 非 指针 )。 白 色 可 达 对 象 要 么 会 在 回收 器 扫描 灰色 对 象 
的 过 程 中 得 到 着 色 ， 要 么 会 在 其 灰色 来 源 对 象 被 修改 时 由 写 屏 障 着 色 ， 因 而 黑色 赋值 器 可 以 
安全 地 从 灰色 对 象 中 加 载 白色 指针 。 读 屏障 可 以 确保 赋值 器 永远 不 会 从 白色 对 象 中 加 载 白 
色 指 针 。 因 此 在 整个 回收 周期 中 ， 对 于 任何 一 个 白色 可 达 对 象 ， 都 会 存在 至 少 一 个 灰色 对 象 
(在 某 一 时 刻 ) 直接 持 有 其 引用 。 


算法 15.3 Pirinen [1998] 黑色 赋值 器 混合 屏障 


1 atomic Read(src, i): 
2 ref + src[i] 

3 if isWhite(src) 
4 shade(ref) 

5 return ref 
6 
7 
8 
9 


atomic Write(src, i, ref): 
if isGrey(src) 
shade(src[i]) 
10 src[i] + ref 


对 上 述 各 种 屏障 技术 中 的 某 些 步 又 进行 精简 ( short-circuite) 或 者 粗 化 ( coarsen) 9, i& 
可 以 衍生 出 一 些 新 的 变种 ， 包 括 : 

。 在 将 某 一 对 象 着 为 灰色 时 ， 可 以 趁机 完成 该 对 象 的 扫描 并 将 其 着 为 黑色 。 

e 对 于 在 写 操作 之 前 扫描 (包含 被 删除 指针 的 ) 来 源 对 象 并 将 其 着 为 黑色 的 写 屏障 ， 可 
以 使 用 将 被 删除 指针 着 为 灰色 的 删除 屏障 来 蔡 代 ， 且 后 者 粒度 更 粗 。 

o 对 于 在 读 操 作 之 前 扫描 来 源 对 象 并 将 其 着 为 黑色 的 读 屏障 ( 即 Appel 等 的 屏障 )， 可 
以 使 用 将 目标 对 象 着 为 灰色 的 读 屏 障 来 替代 ( 即 Baker 等 的 屏障 )， 且 后 者 粒度 更 粗 。 

o 对 于 将 来 源 对 象 回 退 到 灰色 的 屏障 (Bl Steele 和 Boehm 等 的 屏障 )， 可 以 使 用 将 被 插 
人 和信 指 针 的 目标 对 象 着 为 灰色 的 插入 屏障 来 替代 (BI Dijkstra 等 的 屏障 )， 后 者 粒度 更 
粗 ， 精 度 更 低 。 

对 于 所 有 基于 强 三 色 不 变 式 〈 即 增 量 更 新 技术 ) 的 并 发 回收 策略 ， 其 要 么 必须 确保 灰色 


O 所 谓 粗 化 ,是 指 以 牺牲 屏障 精度 为 代价 来 降低 屏障 的 执行 开销 。 一 一 译 者 注 
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赋值 器 不 会 在 黑色 对 象 中 插入 白色 指针 ， 要 么 必须 确保 黑色 赋值 器 不 会 获取 或 者 使 用 白色 指 
针 。 此 二 条 件 符合 其 一 便 可 满足 强 三 色 不 变 式 的 要 求 。 

我 们 知道 ， 基 于 弱 三 色 不 变 式 〈 即 起 始 快照 技术 ) 的 并 发 回收 策略 必须 与 黑色 赋值 器 配 
合 使 用 。 在 弱 三 色 不 变 式 的 框架 下 ， 回 收 器 不 能 再 将 灰色 对 象 简单 看 作 是 通 往 白 色 可 达 对 象 
的 中 间 路 径 ， 对 于 被 黑色 对 象 所 引用 的 白色 对 象 而 言 ， 灰 色 对 象 还 是 它们 可 达 路 径 上 必需 的 
占 位 节点 。 因 此 ， 快 照 屏障 必须 保留 所 有 被 灰色 对 象 直接 引用 的 白色 对 象 ， 为 此 ， 当 赋值 器 
从 灰色 对 象 中 删除 白色 指针 时 ， 快 照 屏障 至 少 应 当 将 被 删除 指针 的 目标 对 象 着 色 。 

对 于 经 由 一 条 白色 指针 链 从 灰色 对 象 可 达 的 白色 对 象 ( 该 对 象 也 可 能 直接 被 黑色 对 象 引 
FA), 我们 要 么 必须 阻止 赋值 器 获取 该 路 径 上 的 白色 对 象 以 避免 赋值 器 破坏 该 路 径 [Pirinen， 
1998]， 要 么 必须 确保 赋值 器 从 白色 对 象 中 删除 引用 时 至 少 应 将 被 删除 指针 的 目标 对 象 着 色 
[Abraham and Patel, 1987; Yuasa, 1990]. 

综 上 所 述 ， 我 们 所 介绍 的 各 种 屏障 技术 均 可 以 满足 其 所 维护 不 变 式 的 最 小 要 求 ， 同 时 对 
这 些 屏障 技术 进行 精简 或 者 粗 化 也 可 得 到 一 些 新 的 变种 。 


15.2.4 并 发 写 屏 障 的 实现 机 制 


不 论 是 基于 强 三 色 不 变 式 还 是 弱 三 色 不 变 式 ， 写 屏障 都 必须 探测 出 所 有 将 回收 相关 指针 
写 入 对 象 域 的 操作 ， 并 使 用 某 种 数据 结构 来 记录 该 指针 的 来 源 、 目 标 或 者 该 操作 所 覆盖 的 引 
用 。 但 是 ， 当 赋值 器 向 该 数据 结构 中 添加 引用 时 ， 并 发 执行 的 回收 器 可 能 会 同时 从 中 移 除 引 
用 并 进行 追踪 ， 因 此 面 对 赋值 器 之 间 、 赋 值 器 和 回收 器 之 间 的 竞争 ， 系 统 必 须 确 保 指针 插 人 
和 删除 操作 的 效率 以 及 正确 性 。 

记录 灰色 对 象 的 一 种 方式 是 将 其 添加 到 日 志 中 ,我 们 曾 在 第 13 章 介 绍 了 多 种 可 以 高 效 
满足 这 一 要 求 的 并 发 数据 结构 ， 本 节 我 们 主要 关注 的 是 另 一 种 常见 技术 : 卡 表 。 第 11 章 已 
经 介绍 过 万 物 静 止 回收 器 中 基本 的 卡 表 操作 ， 本 节 我 们 将 讨论 在 并 发 回收 场景 下 卡 表 操作 的 
复杂 性 及 其 解决 方案 。 

我 们 曾 在 第 11 章 介绍 过 如 何 使 用 卡 表 来 实现 记忆 集 (remset)， 其 基本 策略 是 将 卡 表 中 的 
每 个 字 节 与 一 小 段 连续 堆 空 间 (例如 512 B) 相关 联 。 卡 表 既 可 以 用 于 分 代 回 收回， 也 可 以 用 
于 并 发 回收 器 。 对 于 需要 记录 到 卡 表 中 的 灰色 对 象 ， 写 屏障 会 将 其 所 处 的 卡 在 卡 表 中 的 对 应 
字 节 打上 脏 标记 。 与 此 同时 ， 回 收 器 也 会 并 发 地 扫描 卡 表 ， 找 出 灰色 对 象 并 对 其 进行 追踪 ， 
最 后 清除 脏 标记 。 这 一 过 程 中 ， 赋 值 器 和 回收 器 之 间 的 竞争 显然 会 影响 回收 的 正确 性 。 

灰色 实体 ?的 产生 方式 取决 于 回收 器 以 及 写 屏障 的 类 型 。 在 分 代 回 收 器 中 ,一 旦 在 年 老 
代 对 象 的 某 个 域 中 写 和 年轻 代 对 象 的 引用 ， 则 该 域 将 被 着 为 灰色 。 对 于 使 用 Steele 式 后 退 屏 
障 的 并 发 回收 器 ， 一旦 在 已 标记 (黑色 ) 对 象 中 插入 未 标记 (白色 ) 对 象 的 引用 ， 则 该 对 象 
将 从 黑色 回 退 到 灰色 。 对 于 使 用 Dijkstra 式 前 进 屏障 或 者 Yuasa 式 删 除 屏障 的 并 发 回收 器 ， 
其 必须 将 所 有 位 于 脏 卡 中 的 对 象 当 作 灰 色 对 象 ， 尽 管 这 将 导致 存活 对 象 附近 的 垃圾 得 到 保留 
并 降低 回收 精度 ， 但 实践 中 这 通常 不 会 成 为 问题 ， 正 如 Abuaiadh 等 [2004] 所 发 现 的 ， 在 整 
理 式 回收 中 ， 与 以 对 象 为 单位 的 整理 策略 相 比 ， 以 小 内 存 块 为 单位 进行 整理 仅 会 产生 很 小 的 
空间 浪费 (参见 14.8 节 )。 

卡 表 即 为 并 发 回收 器 的 工作 列表 ， 回 收 器 必须 对 其 进行 扫描 ， 从 中 找 出 脏 卡 并 进行 清理 ， 
直到 所 有 的 卡 都 得 到 清理 为 止 。 由 于 赋值 器 可 能 会 在 回收 器 清理 完 某 个 卡 之 后 再 次 将 其 打上 脏 


日 包括 对 象 和 域 。 一 一 译 者 注 
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标记 ， 所 以 回收 器 必须 重复 扫描 卡 表 。 一 种 替代 方案 是 将 卡 表 的 处 理 推迟 到 一 个 最 终 的 万 物 静 
止 阶段 中 ,但 这 很 可 能 导致 追踪 过 程 的 并 发 处 理 时 段 过 早 地 结束 [Barabash 等 ，2003 2005]. 


15.2.5 BRR 


单 级 卡 表 是 最 简单 的 卡 表 实 现 方式 。 每 个 卡 可 能 处 于 以 下 3 种 状态 中 : 脏 (dirty), Ab 
理 中 (refining)、 已 清理 (clean)。 赋 值 器 写 屏 障 可 以 使 用 简单 的 存储 指令 将 某 个 卡 标记 为 
脏 ， 从 而 不 必 借 助 于 compareandswap 等 原子 指令 [Detlefs 等 ，2002a]。 当 回收 线程 发 现 脏 
卡 时 ， 它 会 先 将 其 状态 设置 为 “处 理 中 ”， 然 后 从 中 寻找 回收 相关 指针 ， 最 后 再 确定 该 卡 的 
新 状态 。 回 收 顺 通常 可 以 简单 地 将 卡 的 新 状态 设置 为 胜 ， 但 Detlefs 等 还 会 对 卡 进行 “汇总 ” 
(summarise) (参见 第 11 章 ) ?。 在 回收 器 尝试 写 入 卡 的 最 新 状态 之 前 ， 其 必须 判断 该 卡 的 状 
态 是 否 依 然 是 “处 理 中 ”， 否则 便 意味 着 在 回收 器 的 查找 过 程 中 赋值 器 再 次 将 该 卡 设置 为 脏 。 
如 果 其 状态 依然 为 处 理 中 ， 则 回收 器 必须 尝试 原子 化 地 更 新 状态 (例如 使 用 compareandswap 
原 语 )， 如 若 失败 ， 则 意味 着 赋值 器 并 发 地 将 该 卡 设置 为 胜 ， 此 时 卡 中 可 能 会 包含 新 的 未 处 
理 灰 色 对 象 。 面 对 这 一 情况 ，Detlefs 等 会 简单 地 将 卡 的 状态 保持 为 脏 ， 然 后 继续 处 理 下 一 
AER, 但 也 有 其 他 一 些 策略 会 重新 清理 该 卡 。 


15.26 ”两 级 卡 表 


大 部 分 卡通 常 处 于 已 清理 状态 ， 因 而 两 级 卡 表 可 以 提升 回收 器 在 卡 表 中 查找 脏 卡 的 效 
率 。 在 粒度 更 粗 的 第 二 级 卡 表 中 ， 每 个 条 目 均 对 应 2" 个 粒度 更 细 的 卡 。 清 理 两 级 卡 表 的 过 
程 与 清理 单 级 卡 表 类 似 ， 即 当 回 收 器 发 现 一 个 二 级 脏 卡 时 ， 其 会 先 将 该 二 级 卡 的 状态 设置 为 
“处 理 中 ”， 然 后 再 进一步 查找 其 所 对 应 的 一 级 卡 。 当 完成 所 有 一 级 卡 的 清理 之 后 ， 回 收 器 会 
尝试 将 二 级 卡 的 状态 原子 化 地 设置 为 “已 清理 ”。 需 要 注意 的 是 ， 这 一 过 程 中 存在 一 个 微妙 
的 并 发 问题 : 在 负责 清理 卡 的 回收 线程 看 来 ， 写 屏障 标记 脏 卡 的 操作 并 非 原 子 化 的 ， 因 而 写 
屏障 必须 先 将 一 级 卡 标记 为 脏 ， 然 后 再 标记 其 所 对 应 的 二 级 卡 ， 回 收费 则 必须 以 相反 的 顺序 
读 取 两 级 卡 的 状态 。 为 确保 正确 的 执行 顺序 ， 可 能 需要 付出 额外 的 内 存 屏障 开销 。 


15.2.7 减少 回收 工作 量 的 相关 策略 


Barabash 等 [2003 2005] 提出 了 一 种 减少 回收 器 元 余 工 作 的 方案 ， 即 尝试 避免 多 次 扫 
描 同 一 对 象 。 在 该 方案 中 ， 回 收 器 将 把 清理 卡 的 工作 推迟 到 出 现 新 的 追踪 工作 时 。 这 一 主体 
并 发 回收 器 使 用 Steele 式 回 退 插入 屏障 ， 回 收 器 必须 对 脏 卡 中 所 有 的 已 标记 对 象 进行 扫描 并 
追踪 其 未 标记 的 子 节点 。 减 少 宛 余 扫描 工作 的 第 一 种 策略 是 在 扫描 脏 卡 时 不 去 追踪 其 中 的 对 
象 ， 而 是 将 其 标记 为 “在 清理 时 再 进行 追踪 ”。 在 后 续 清 理 过 程 中 ， 如 果 回 收 器 在 某 一 时 刻 
发 现 其 所 处 理 的 卡 重新 变 脏 ， 其 必须 重新 对 卡 中 的 所 有 对 象 进行 追踪 ， 尽管 这 可 能 导致 某 些 
对 象 被 二 次 追踪 (在 这 些 对 象 得 到 首次 追踪 之 后 ， 其 所 在 的 长 才 变 脏 )， 但 却 保 证 了 尚未 追 
踪 过 的 对 象 只 会 受到 一 次 追踪 。Barabash 等 发 现 这 一 策略 可 以 提升 回收 器 的 性 能 并 减少 高 速 
缓存 不 命中 的 次 数 。 需 要 注意 的 是 ， 在 弱 一 致 性 平台 上 ， 尽 管内 存 访问 顺序 的 变化 可 能 使 该 
优化 策略 失效 ， 但 该 技术 的 安全 性 依然 可 以 得 到 保证 。 

减少 元 余 工 作 的 第 二 种 策略 是 降低 脏 卡 的 数量 。 我 们 知道 ， 如 果 Steele 式 插 人 屏障 将 某 
个 卡 标记 为 脏 ， 必 然 是 因为 赋值 器 修改 了 该 卡 中 回收 器 已 经 追踪 过 的 对 象 ; 如 果 被 修改 的 对 


O 汇总 的 目的 是 为 了 加 速 后 续 堆 遍历 过 程 的 处 理 速度 。 一 一 译 者 注 
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象 尚未 得 到 追踪 ， 则 只 要 该 对 象 依旧 可 达 ， 其 终究 会 被 回收 器 追踪 到 ， 因 而 写 屏 障 无 需 将 其 
所 在 的 卡 标记 为 胜 。 也 就 是 说 ， 写 屏障 无 需 将 白色 对 象 着 为 灰色 8 。 

卡 表 的 优势 在 于 其 标记 速度 很 快 ， 且 无 需 原子 操作 ， 其 性 能 主要 取决 于 查找 回收 相关 指 
针 的 开销 。 提 升 卡 表 性 能 的 第 一 种 策略 是 无 条 件 地 将 卡 标记 为 胜 ， 同 时 额外 使 用 一 张 表 来 记 
录 每 个 卡 是 否 包含 已 被 追踪 过 的 对 象 。 如 果 卡 表 以 字 节 数组 而 非 位 数组 的 方式 实现 ， 则 回收 
器 可 以 通过 如 下 方式 周期 性 地 清理 脏 卡 ， 整 个 过 程 无 需 任 何 原子 操作 : 


for each dirty card C 
if not isTraced(c) $ 
setClean(C) 
if isTraced(C) 
setDirty(C) 
提升 卡 表 性 能 的 第 二 种 策略 基于 如 下 观察 结果 : 在 许多 应 用 程序 中 ， 大 多 数 指针 写 操作 
均 是 针对 年 轻 对 象 的 ， 且 这 些 年 轻 对 象 通常 位 于 本 地 分 配 缓冲 区 中 ， 因 此 可 以 借助 对 象 头 部 
的 一 个 位 来 反映 其 是 否 位 于 某 个 活动 的 本 地 分 配 缓冲 区 中 。 如 果 某 一 对 象 的 该 位 得 到 设置 ， 
则 回收 器 将 推迟 对 其 的 追踪 过 程 ， 并 将 其 添加 到 延迟 列表 中 。 当 分 配 缓冲 区 溢出 时 〈 即 分 配 
慢 速 路 径 )， 赋 值 器 会 将 该 缓冲 区 内 所 有 的 卡 设置 为 已 清理 ， 同 时 清空 该 缓冲 区 中 所 有 对 象 
的 延迟 追踪 位 8 。Barabash 等 发 现 ， 回 收 器 极 少 触 达 活动 的 本 地 分 配 缓冲 区 中 的 对 象 ， 因 而 该 
策略 可 以 大 幅 提升 回收 效率 。 
在 弱 一 致 性 平台 上 还 有 一 些 额外 的 细节 需要 注意 。 为 确保 正确 的 执行 顺序 ， 最 简单 的 策 
略 是 回收 器 在 将 某 个 卡 标记 为 已 追踪 之 后 、 追 踪 某 一 对 象 之 前 均 执 行内 存 屏障 ; 清理 脏 卡 
时 ， 在 回收 器 检查 该 卡 是 否 为 脏 之 后 、 判 断 该 卡 是 否 已 被 追踪 过 之 前 ， 也 需 执 行内 存 屏障 。 
需要 注意 的 是 ， 两 种 情况 下 均 只 有 回收 器 线程 需要 执行 内 存 屏障 。 另 一 种 蔡 代 方案 是 清理 线 
程 从 头 扫 描 卡 表 ， 清 理 并 (在 链表 或 者 男 一 张 卡 表 中 ) 记录 所 有 尚未 完成 追踪 的 脏 卡 。 扫 描 
完成 后 ， 清 理 线 程 会 与 回收 器 进行 握手 并 请 求 并 发 回收 器 执行 某 一 同步 屏障 。 握 手 过 程 完 成 
后 ， 清 理 线程 会 重新 扫描 所 有 已 被 回收 器 追踪 过 但 又 被 赋值 器 重新 设置 为 脏 的 卡 。 


15.3 需要 考虑 的 问题 


不 论 是 增 量 回收 器 〈 赋 值 器 与 回收 器 交替 执行 ) 还 是 并 发 回收 器 《赋值 器 与 回收 器 并 行 
执行 )， 其 主要 目的 都 是 最 大 限度 地 缩短 赋值 器 可 以 感知 到 的 回收 停顿 时 间 。 增 量 / 并 发 回 
收 策略 要 么 需要 赋值 器 执行 一 部 分 回收 工作 ， 要 么 需要 赋值 器 与 回收 器 进行 一 定 程度 的 同步 
(可 能 需要 等 待 回 收 器 完成 某 些 工作 )， 因 而 通常 需要 付出 额外 的 总 体 执行 时 间 《〈 即 牺牲 赋值 
器 吞吐 量 )。 在 理想 情况 下 ， 并 发 回收 器 也 许 能 够 与 赋值 器 完全 并 行 ， 进 而 缩短 总 体 执行 时 
间 ， 但 天 下 没有 免费 的 午餐 ， 并 发 回收 技术 必然 要 求 赋 值 器 和 回收 器 之 间 进 行 某 种 程度 的 通 
信和 与 同步 ， 其 具体 表现 形式 通常 是 赋值 铝 屏 障 。 另 外 ， 赋 值 器 和 回收 器 之 间 在 处 理 器 时 间 以 
及 内 存 方面 的 范 争 〈 包 括 回收 器 对 高 速 缓存 的 干扰 ) 同样 也 可 能 降低 赋值 器 的 执行 速度 。 

但 在 另 一 方面 ， 增 量 /并 发 回收 也 可 能 提升 某 些 应 用 程序 的 吞吐 量 。 回 收 器 在 单个 赋值 
器 操作 上 《〈 即 读 取 或 写 和 人 操作) 引入 额外 开销 ， 目 的 是 为 了 减少 用 户 可 以 感知 到 的 回收 停顿 ， 
而 应 用 程序 的 用 户 也 可 能 是 另 一 个 对 延迟 十 分 敏感 的 程序 。Ossia 等 [2004] 以 三 层 事务 处 理 
系统 为 例 指 出 ， 万 物 静 止 式 回收 可 能 导致 事务 超时 并 引发 重 试 ， 而 少量 开销 的 引入 《〈 即 执行 


日 因而 也 无 需 将 白色 被 修改 对 象 所 在 的 卡 标记 为 脏 。 一 一 译 者 注 
日 ”此 时 该 缓冲 区 中 的 灰色 对 象 依然 从 延迟 列表 可 达 。 一 一 译 者 注 
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写 屏 障 ) 即 可 避免 更 多 的 额外 工作 ( 即 事务 的 超时 处 理 逻 辑 )。 

在 后 续 章节 中 ， 我 们 将 介绍 多 种 并 发 回收 策略 ， 每 种 策略 都 会 给 赋值 器 引入 不 同 程度 的 
额外 开销 。 并 发 引用 计数 回收 会 给 指针 加 载 和 存储 操作 带 来 很 高 的 额外 负担 ; 并 发 标记 一 清 
扫 回 收 器 不 会 移动 对 象 ， 它 给 赋值 器 带 来 的 指针 访问 开销 (与 屏障 技术 不 同 ) 相对 较 低 ， 但 
它 可 能 会 受到 内 存 碎片 问题 的 影响 ;在 移动 式 并 发 回收 中 ， 为 确保 赋值 器 不 受 回 收 器 移动 对 
象 的 影响 ， 两 者 之 间 可 能 需要 引入 额外 的 同步 机 制 , 或 者 需要 回收 器 将 这 一 行为 通知 给 赋值 
器 ; 复制 式 回 收 器 会 带 来 额外 的 空间 开销 ， 并 增 大 内 存 压 力 ; 在 所 有 的 并 发 回收 器 中 ,不论 
是 读 屏 障 还 是 写 屏障 ， 两 者 都 会 不 同 程度 地 影响 赋值 器 的 吞吐 量 ， 影 响 的 程度 取决 于 读 写 操 
作 的 频率 以 及 屏障 操作 的 工作 量 。 

并 发 标记 -清扫 回收 器 通常 会 使 用 写 屏 障 来 通知 回收 器 对 某 一 对 象 进 行 标记 ; 并 发 复 
制 、 并 发 整理 回收 器 通常 会 使 用 读 屏 障 来 确保 赋值 器 不 会 访问 到 已 经 存在 新 副本 的 陈旧 对 
象 。 回 收 咒 需要 在 屏障 操作 的 频率 和 每 次 操作 的 工作 量 之 间 进 行 平衡 。 对 于 可 能 引发 复制 与 
扫描 的 写 屏 障 ， 其 执行 开销 显然 高 于 仅 执 行 简单 复制 操作 的 写 屏 障 ， 而 后 者 的 执行 开销 显然 
又 高 于 仅 需 改变 来 源 指 针 的 写 屏 障 。 类 似 地 ， 将 部 分 工作 提前 可 能 会 减少 后 续 过 程 中 写 屏 障 
的 工作 量 。 另 外 ， 所 有 这 些 因素 都 还 取决 于 回收 相关 工作 的 执行 粒度 ， 这 一 粒度 可 能 是 单个 
引用 ， 也 可 能 是 对 象 ， 还 可 能 是 页 。 

浮动 垃圾 问题 也 是 并 发 回收 算法 需要 考虑 的 问题 之 一 。 容 许 浮动 垃圾 的 存在 可 以 加 速 并 
发 回收 周期 的 结束 ， 但 这 会 带 来 额外 的 内 存 压力 。 

赋值 器 (线程) 是 否 需要 在 回收 周期 的 开始 或 者 结束 阶段 挂 起 〈 前 者 是 为 了 确保 回收 占 
找到 所 有 赋值 器 根 ， 后 者 是 为 了 进行 结束 检测 )， 也 会 影响 赋值 器 的 吞吐 量 。 判 定 回 收 周期 
结束 的 标准 也 会 影响 浮动 垃圾 的 多 少 。 

大 多 数 并 发 回收 器 仅 可 以 在 停顿 时 间 和 空间 开销 方面 提供 十 分 松散 的 保障 。 实 时 应 用 程 
序 在 空间 和 时 间 方 面 存在 硬 上 限 要 求 ， 这 意味 着 系统 必须 在 赋值 器 与 堆 的 交互 操作 方面 提供 
定义 明确 的 前 进 保障 ， 同 时 在 应 用 程序 的 内 存 分 配 规 模 方面 必须 提供 定义 明确 的 空间 保障 。 

增 量 回收 与 并 发 回收 特别 适用 于 存活 对 象 比 例 很 高 的 系统 。 在 这 一 场景 下 ， 即 使 充分 利 
用 所 有 处 理 器 来 进行 万 物 静 止 式 并 行 回收 也 会 产生 不 可 接受 的 停顿 时 间 。 增 量 回收 与 并 发 回 
收 的 一 个 缺陷 在 于 ， 只 有 在 回收 周期 结束 之 后 ， 不 可 达 对 象 所 占用 的 空间 才能 得 到 回收 ， 因 
而 堆 中 必须 预 留 足够 多 的 空间 余 量 ， 或 者 给 回收 器 分 配 足够 多 的 处 理 器 资源 (从 而 减少 了 赋 
值 器 的 可 用 处 理 器 资源 )， 进 而 确保 回收 周期 可 以 在 赋值 器 耗 尽 内 存 之 前 结束 。 我 们 将 在 第 19 
章 介绍 实时 回收 时 再 讨论 回收 器 的 调度 问题 ， 届 时 我 们 将 看 到 ， 这 一 问题 的 处 理 相 当 环 手 。 

一 种 替代 方案 是 使 用 混合 分 代 /并 发 回收 器 ， 该 方案 依然 使 用 传统 的 分 代 策 略 来 管理 年 
轻 代 ( 即 次 级 回收 依然 是 万 物 静止 式 的 )， 而 年 老 代 则 使 用 并 发 回收 器 进行 管理 。 这 一 方案 
存在 诸多 优势 : 年 轻 代 的 回收 周期 通常 足够 短 ( 数 毫秒 )， 从 而 不 会 给 赋值 器 的 执行 带 来 太 
大 干扰 ; 弱 分 代 假 说 告诉 我 们 ， 大 多 数 对 象 都 在 年 轻 时 死亡 ， 因 而 大 多 数 内 存 都 将 在 下 一 
个 回收 周期 中 立即 得 到 回收 ， 从 而 减少 了 堆 中 预 留 的 空间 余 量 (其 目的 在 于 避免 内 存 耗 尽 )， 
降低 了 空间 开销 ; 由 于 年 轻 代 使 用 万 物 静 止 式 的 回收 策略 进行 管理 ， 所 以 无 需 为 其 引入 并 发 
写 屏 障 ， 仅 在 分 代 间 引入 写 屏障 便 已 经 足够 ; 尽管 大 多 数 新 生 对 象 并 不 会 活 到 下 一 轮回 收 的 
开始 ， 但 并 发 回收 算法 通常 会 将 新 生 对 象 着 为 黑色 ， 这 将 导致 其 在 下 一 轮回 收 中 必然 得 到 保 
留 ， 而 使 用 分 代 策略 来 分 配 新 对 象 则 轻易 化 解 了 这 一 问题 最 后 ， 年 老 代 对 象 的 修改 频率 会 
比 年 轻 代 低 得 多 [Blackburn and McKinley，2003]， 这 正 是 增 量 /并 发 回收 理想 的 用 武之 地 ， 
因为 其 写 屏 障 的 调用 频率 也 会 很 低 。 
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第 15 章 我 们 介绍 了 增 量 回收 与 并 发 回收 的 实现 基础 ， 同 时 也 指出 了 此 类 回收 器 所 遇 到 的 
共性 问题 。 本 章 我 们 将 关注 此 类 回收 器 中 的 一 个 家 族 ， 即 并 发 标记 -清扫 回收 器 。 并 发 回收 算 
法 所 面临 的 最 重要 的 问题 是 回收 的 正确 性 ， 这 要 求 赋值 器 和 回收 器 之 间 必 须 进行 适当 的 通信 ， 
从 而 确保 它们 能 够 在 堆 的 拓扑 结构 方面 保持 一 致 的 认 知 。 赋 值 器 有 义务 确保 回收 器 不 会 将 存 
活 对 象 误 判 为 不 可 达 ， 而 移动 式 回 收 器 也 有 义务 确保 赋值 器 能 够 正确 访问 到 已 经 移动 的 对 象 。 

并 发 标记 -= 清扫 算法 家 族 是 最 简单 的 一 类 并 发 回收 器 。 由 于 回收 器 不 会 修改 指针 域 ， 所 
以 赋值 器 可 以 自由 地 从 堆 中 加 载 指针 ， 同 时 无 需 担 心 任 何 来 自 回 收 器 的 干扰 ， 因 此 非 移动 
式 回 收 器 天 然 不 需要 读 屏 障 。 赋 值 器 在 堆 中 的 读 操作 通常 要 比 写 操作 更 加 频繁 ， 因 此 对 于 
非 移动 式 回收 器 而 言 ， 维 护 强 三 色 不 变 式 所 必需 的 读 屏 障 往往 会 引入 很 大 的 开销 。 例 如 ， 
Zorn[1990] AHL, SPUR Lisp 语言 中 指针 读 操 作 的 静态 频率 为 13% ~ 15%， 而 指针 写 操作 
则 为 4%， 其 测量 结果 表明 ， 内 联 写 屏障 的 运行 时 开销 为 2% ~ 6%， 而 读 屏障 的 开销 则 要 
达到 20%。 这 一 普遍 规律 的 唯一 例外 是 依靠 编译 器 优化 技术 来 去 除 宛 余 屏障 [Hosking $, 
1999; Zee and Rinard，2002]， 并 且 将 某 些 屏障 操作 合并 到 已 有 的 空 指针 检查 操作 中 [Bacon 
等 ，2003a]。 基 于 上 述 原因 ， 并 发 标记 -清扫 回收 器 通常 使 用 Dijkstra 等 [1976, 1978] 的 增 
量 更 新 写 屏 障 或 者 Steele [1976] 的 插入 写 屏障 ， 也 可 使 用 Boehm 等 [1991] 的 粗 化 变种 ， 或 
者 Yuasa[1990] 的 起 始 快照 删除 屏障 。 


16.1 初始 化 


并 发 回收 器 通常 不 会 等 到 赋值 器 耗 尽 内 存 时 才 开 始 执行 ， 即 使 赋值 器 正在 分 配 内 存 ， 并 
发 回收 器 仍 可 以 正常 执行 ， 但 何 时 启动 新 一 轮 标记 过 程 却 比 较 难 决定 。 如 果 回 收 周期 开始 
的 太 晚 ， 则 可 能 会 出 现 部 分 内 存 分 配 请 求 得 不 到 满足 的 情况 ， 此 时 赋值 器 只 能 挂 起 直到 回收 
周期 结束 为 止 。 一 旦 回收 周期 开始 ， 则 回收 器 的 稳 态 工作 率 (steady-state work-rate) 必须 能 
够 确保 当前 回收 周期 在 赋值 器 耗 尽 内 存 之 前 结束 ， 同 时 还 应 当 尽量 减少 对 赋值 器 吞吐 量 的 影 
响 。 何 时 以 及 如 何 启动 新 一 轮回 收 周期 、 如 何 确 保 并 发 回收 过 程 中 存在 足够 的 可 用 分 配 内 
存 、 如 何 确保 回收 周期 能 够 正常 结束 并 将 垃圾 对 象 回收 ， 这 些 问题 的 答案 均 取 决 于 如 何在 赋 
值 器 工作 的 同时 合理 调度 回收 工作 。 

算法 16.1 展示 了 并 发 标记 - 清扫 回收 器 中 的 赋值 器 分 配 过 程 ， 在 该 回收 器 中 ,，( 赋 值 器 
线程 的 ) 每 个 内 存 分 配 请 求 都 会 调用 collectEnough 方法 来 增 量 式 地 完成 一 部 分 回收 工作 。 
atomic 修饰 词 意味 着 这 一 工作 需要 与 其 他 并 发 执行 的 赋值 器 线程 或 者 回收 器 线程 进行 同步 。 
behinda 方 法 控制 着 何 时 执行 回收 工作 以 及 每 次 执行 多 少 ， 从 而 可 以 避免 因 赋值 器 比 回收 器 
超前 过 多 而 导致 的 内 存 分 配 失 败 。 


算法 16.1 主体 并 发 标记 - 清扫 分 配 


1 New(): 
2 collectEnough() 
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3 ref + allocate() /* 如 果 赋 值 器 为 黑色 ， 则 新 分 配 的 对 象 也 必须 着 为 黑色 */ 
4 if ref = null 

5 error "Out of memory" 

6 return ref 
7 
8 
9 


atomic collectEnough(): 
while behind() 
0 if not markSome() 
1 return 


算法 16.2 展示 了 回收 工作 启动 后 回收 器 的 执行 过 程 。 回 收 器 首先 清空 工作 列表 ， 然 后 扫 
描 赋 值 器 根 以 建立 最 初 的 工作 列表 。 假 定 回收 器 扫描 赋值 器 根 的 过 程 需要 将 所 有 赋值 器 线程 
挂 起 ， 则 当 扫 描 完成 后 赋值 器 线程 将 不 会 引用 任何 白色 对 象 。 由 于 该 算法 需要 一 个 万 物 静止 
式 的 回收 初始 化 过 程 ， 因 而 其 属于 主体 并 发 模式 。 初 始 扫 描 过 程 所 遍历 到 的 灰色 根 对 象 构成 
了 后 续 扫 描 过 程 的 初始 回收 波 面 。 完 成 赋值 器 根 的 扫描 之 后 ， 赋 值 器 线程 将 恢复 执行 ， 其 所 
使 用 的 写 屏障 类 型 将 决定 赋值 器 究竟 是 黑色 ( 即 不 允许 赋值 器 持 有 任何 白色 引用 ) 还 是 灰色 。 


算法 16.2 主体 并 发 标记 


shared worklist + empty 


1 

2 

3 markSome(): 

4 if isEmpty(worklist) /* 初始 化 回收 过 程 */ 
5 scan(Roots) /* FRA: 赋值 器 不 持 有 任何 白色 对 象 的 引用 */ 
6 if isEmpty(worklist) /* 不 变 式 : 灰色 对 象 已 经 全 部 处 理 完毕 */ 
7 /* 标记 过 程 结 束 */ 

8 sweep() /* 立即 清扫 或 懒惰 清扫 */ 
9 return false /* 标记 结束 */ 


10 /* 回收 过 程 继续 */ 
n ref + remove(worklist) 
2 scan(ref) 


13 return true /* 后 续 过 程 需 要 继续 进行 标记 */ 


5 shade(ref): 


16 if not isMarked(ref) 
Y setMarked(ref) 
18 add(worklist, ref) 


» scan(ref): 

a for each fld in Pointers(ref) 

child + +*fld 

if child # null 
shade(child) 


revert(ref): 
add(worklist, ref) 
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isWhite(ref): 
return not isMarked(ref) 


2 


isGrey(ref): 
return ref in worklist 


isBlack(ref): 
return isMarked(ref) & not isGrey(ref) 
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万 物 静 止 策略 可 能 会 引入 不 可 接受 的 时 间 停 顿 。 如 果 灰 色 赋 值 器 屏障 已 经 安装 就 绪 ， 则 
可 以 简单 地 激活 屏障 并 将 扫描 根 的 操作 推迟 到 与 赋值 器 并 发 执行 阶段 。 我 们 将 在 16.5 节 介 
绍 如 何 放宽 将 所 有 赋值 器 线程 挂 起 并 扫描 其 根 这 一 要 求 ， 但 尽管 如 此 ， 回 收 器 仍 需 对 至 少 一 
个 赋值 器 的 根 进行 扫描 ， 以 便 完 成 工作 列表 的 初始 化 。 


16.2 ”结束 


如 果 只 允许 黑色 赋值 器 的 存在 ， 则 回收 周期 的 结束 将 是 一 个 相对 直接 的 过 程 : 当 工 作 列 
表 中 不 再 包含 待 扫描 灰色 对 象 时 ， 回 收 结束 。 此 时 ， 即 使 回收 器 遵从 弱 三 色 不 变 式 ， 赋 值 器 
也 只 可 能 包含 黑色 引用 ， 因 为 此 时 堆 中 将 不 存在 任何 从 灰色 对 象 可 达 的 白色 对 象 (因为 已 经 
不 存在 灰色 对 象 )。 赋 值 器 为 黑色 意味 着 无 需 重新 扫描 其 根 。 

如 果 人 允许 灰色 赋值 器 的 存在 ， 回 收 过 程 的 结束 则 会 稍 加 复杂 ， 因 为 赋值 器 可 能 会 在 〈 初 
始 化 阶段 的 ) 根 扫描 完成 之 后 重新 载 人 白色 指针 ， 所 以 在 回收 结束 之 前 ， 回 收 器 必须 重新 扫 
描 灰色 赋值 器 的 根 。 如 果 在 重新 扫描 过 程 中 没有 发 现任 何 新 的 灰色 对 象 ， 则 意味 着 回收 结 
束 。 因 此 在 算法 16.2 中 ， 回 收 器 在 进入 清扫 阶段 之 前 必须 重新 扫描 赋值 器 根 ， 以 确保 不 存 
在 更 多 灰色 引用 (第 5 行 )。 


16.3 :分配 


分 配器 必须 依照 赋值 器 的 颜色 来 为 新 分 配 的 对 象 赋予 合适 的 标记 状态 ( 即 颜色 )。 如 果 
赋值 器 为 黑色 ， 则 强 三 色 不 变 式 要 求 新 分 配 的 对 象 必 须 被 着 为 黑色 〈 即 已 标记 ) ; 而 在 弱 三 
色 不 变 式 框架 下 ， 除 非 新 分 配对 象 从 某 个 灰色 对 象 可 达 ， 和 否则 分 配器 也 应 将 其 着 为 黑色 。 由 
于 分 配器 通常 很 难 判定 新 分 配 的 对 象 是 否 从 灰色 对 象 可 达 ， 所 以 即使 是 在 弱 三 色 不 变 式 的 
框架 下 ， 分 配器 也 通常 会 将 新 分 配对 象 着 为 黑色 [Abraham and Patel, 1987; Yuasa, 1990]. 
相 比 之 下 ， 基 于 灰色 赋值 器 的 实现 方案 在 分 配对 象 时 存在 多 种 着 色 策 略 。 

Kung 和 Song [1977] 发 现 ， 赋 值 器 通常 会 很 快 将 新 分 配对 象 链接 到 其 他 可 达 对 象 ， 此 时 
他 们 所 使 用 的 无 条 件 Dijkstra 式 增 量 更 新 写 屏 障 便 可 在 此 时 对 其 进行 着 色 。 基 于 这 一 原因 ， 
他 们 所 设计 的 分 配器 仅 在 标记 阶段 分 配 黑色 对 象 ， 在 其 他 阶段 则 分 配 白 色 对 象 。 另 外 ， 由 于 
新 分 配对 象 不 包含 任何 引用 ， 因 而 分 配器 可 以 安全 地 将 其 直接 着 为 黑色 。 

对 于 标记 阶段 的 对 象 分 配 操作 ，Steele [1976] 会 根据 用 于 对 象 初始 化 的 指针 的 颜色 来 确 
定 新 分 配对 象 的 颜色 。 假 定 分 配器 可 以 预知 新 分 配对 象 各 指针 域 的 初始 值 ， 则 其 可 以 批量 判 
断 这 些 指针 目标 对 象 的 颜色 ， 如 果 它 们 均 非 白色 ， 则 分 配器 可 以 安全 地 将 新 分 配对 象 着 为 
黑色 。 另 外 ， 如 果 所 有 用 于 对 象 初始 化 的 指针 均 非 白色 ， 很 可 能 意味 着 标记 过 程 已 经 接近 尾 
声 ， 同 时 也 意味 着 新 分 配对 象 很 可 能 会 在 标记 阶段 结束 之 后 依然 存活 。 反 之 ， 如 果 所 有 的 初 
始 化 指针 均 为 白色 ， 则 回收 器 也 会 将 新 对 象 着 为 白色 。Steele 的 回收 器 将 赋值 器 栈 的 扫描 放 
在 最 后 阶段 ， 且 其 扫描 方向 为 从 栈 底 〈 数 据 变化 最 不 频繁 ) 到 栈 顶 (数据 变化 最 频繁 )， 因 此 
大 多 数 新 分 配对 象 都 将 被 着 为 白色 ， 从 而 可 以 减少 堆 中 的 浮动 垃圾 。 

在 清扫 过 程 中 ，Steele[1976] 的 分 配器 会 依照 清扫 器 在 堆 中 的 遍历 位 置 来 决定 新 分 配对 
象 的 颜色 : 从 已 经 清扫 过 的 区 域 中 分 配 的 对 象 将 为 白色 ， 反 之 则 为 黑色 〈 目 的 是 避免 清扫 天 
将 新 分 配对 象 误 认为 垃圾 )。 

将 新 分 配对 象 着 为 白色 而 非 黑 色 可 能 会 引发 一 个 问题 ， 即 这 些 白色 对 象 久 而 久之 可 能 会 
积累 成 一 条 很 长 的 白色 对 象 链 ， 如 果 这 些 对 象 依然 可 达 ， 则 在 当前 回收 周期 结束 之 前 回收 器 
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终究 需要 对 其 进行 追踪 (例如 当 灰 色 赋 值 器 分 配 了 一 个 较 大 的 白色 数据 结构 时 )。 尽 管 将 新 
分 配对 象 着 为 黑色 能 够 确保 回收 过 程 的 结束 不 会 因此 受到 延迟 ， 但 这 一 策略 却 会 导致 新 分 配 
的 短命 对 象 只 能 在 下 一 轮回 收 周期 中 得 到 回收 ， 从 而 造成 空间 上 的 浪费 [Boehm 等 ，1991 ; 
Printezis and Detlefs, 2000]. Vechev “ [2006] 提出 了 一 种 折 中 方案 ， 该 方案 为 新 分 配 的 对 
象 赋予 了 新 的 颜色 (第 4 种 颜色 ): 黄色 。 清 扫 器 可 以 将 黄色 对 象 等 价 于 白色 对 象 〈 它 们 可 能 
会 在 当前 回收 周期 结束 之 前 就 已 经 死亡 )， 而 标记 器 则 会 将 其 当做 黑色 对 象 ， 也 就 是 说 ， 标 
记过 程 可 以 直接 把 黄色 对 象 着 为 黑色 ， 同 时 无 需 对 其 进行 扫描 。 因 此 ， 在 回收 结束 阶段 对 灰 
色 赋 值 器 的 追踪 过 程 中 ， 如 果 遇 到 黄色 对 象 ， 则 意味 着 无 需 进 一 步 对 其 进行 追踪 。 


16.4 标记 过 程 与 清扫 过 程 的 并 发 


目前 为 止 ， 我 们 仅 考虑 了 标记 过 程 与 赋值 器 之 间 的 并 发 ， 同 时 假定 标记 过 程 与 清扫 过 程 
之 间 是 串 行 的 。 懒 惰 清 扫 意 味 着 赋值 器 会 在 内 存 分 配 过 程 中 执行 并 发 清扫 ， 其 所 清扫 的 内 存 
块 是 由 上 一 次 标记 过 程 所 确定 的 ， 而 在 懒惰 清扫 的 过 程 中 ， 新 一 轮回 收 的 标记 过 程 可 能 已 经 
开始 。 这 一 情况 可 能 会 潜在 地 导致 对 象 的 颜色 出 现 混乱 。 此 处 的 解决 方案 是 将 上 一 轮 标记 过 
程 所 识别 出 的 真正 白色 垃圾 对 象 (需要 进行 清扫 ) 与 下 一 轮回 收 过 程 中 尚未 追踪 到 的 (未 标 
id) 白色 对 象 进行 区 分 。Lamport[1976] 引入 紫色 来 对 上 述 两 种 白色 对 象 进 行 区 分 ， 从 而 将 
标记 和 清扫 阶段 的 执行 流水 线 化 。 标 记 阶 段 结束 后 ， 回 收 器 会 将 所 有 白色 垃圾 对 象 重 新 着 为 
紫色 ， 而 清扫 过 程 将 回收 紫色 对 象 并 将 其 添加 到 对 应 的 空闲 链表 中 (同时 需要 重新 将 其 着 为 
黑色 或 者 白色 ， 具 体 取决 于 分 配 颜 色 )。 

对 于 存在 多 个 并 发 标记 与 清扫 线程 的 场景 ，Lamport 的 回收 器 在 每 个 回收 周期 中 将 通过 
如 下 的 方式 进行 工作 : 

1 ) 等 待 所 有 的 标记 器 与 清扫 器 结束 工作 。 

2 ) 将 所 有 白色 节点 着 为 紫色 ， 然 后 将 所 有 黑色 节点 着 为 白色 (白色 有 利于 减少 浮动 垃 
圾 ) 或 灰色 (此 时 该 节点 已 经 由 赋值 器 写 屏 障 进行 并 发 着 色 )。 

3 ) 将 所 有 赋值 器 的 根 着 色 。 

4) 启动 标记 器 与 清扫 器 。 

标记 过 程 将 忽略 所 有 紫色 对 象 : 赋值 器 永远 不 会 获取 紫色 对 象 的 引用 ， 因 而 灰色 对 象 永 
远 不 会 引用 紫色 对 象 ， 且 紫色 对 象 永远 不 会 被 着 色 。 这 一 策略 的 实现 难点 在 于 ， 在 清扫 过 
程 开始 之 前 ， 回 收 器 必须 遍历 所 有 垃圾 对 象 并 将 其 着 为 紫色 ， 类 似 地 ， 在 标记 过 程 的 开始 阶 
段 ， 回 收 器 必须 将 (上 一 个 回收 周期 所 识别 出 的 ) 所 有 黑色 对 象 重 新 着 为 白色 。 

针对 这 一 问题 ，Lamport 提出 了 一 种 优雅 的 解决 方案 ， 该 方案 会 在 回收 过 程 的 第 2 步 为 
每 个 对 象 当 前 的 颜色 值 赋予 新 的 含义 。 每 个 对 象 将 对 应 一 个 占用 两 个 位 的 颜色 标签 nue (A 
色 、 黑 色 、 紫 色 )， 外 加 一 个 占用 一 位 的 shadea 旗 标 。 如 果 hue 为 白色 ， 则 设置 shaded 旗 标 
位 意味 着 将 对 象 着 为 灰色 (Bl: shaded 旗 标 被 设置 + hue 为 白色 = 灰色 ); WR nue 为 黑色 ， 
则 设置 shaded 旗 标 无 任何 作用 ( 即 只 要 hue 为 黑色 ， 则 不 论 shaded 旗 标 是 否 已 被 设置 ， 对 
象 均 为 黑色 ) ; 如 果 hue 为 紫色 ， 则 由 于 回收 器 永远 不 会 追踪 到 垃圾 对 象 ， 因 而 其 shadea 旗 
标 不 可 能 被 设置 。hue 值 的 具体 含义 是 由 全 局 变量 base 所 决定 的 ，hue=base 意味 着 白色 ， 
hue=base+1 意味 着 黑色 ，hue=base+2 意味 着 紫色 。 在 回收 的 第 2 阶段 ， 由 于 标记 过 程 与 清扫 
过 程 均 已 经 结束 ， 所 以 堆 中 不 存在 任何 灰色 或 者 紫色 节点 ， 此 时 如 果 要 将 黑色 对 象 翻转 为 白 
色 ， 以 及 将 白色 对 象 翻 转 为 紫色 ， 只 需 简 单 地 增加 变量 base 并 将 其 模 3。 表 16.1 展示 了 变量 
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base H| REFF ÆR 3 “MA (00, 01, 10) 以 及 shadea 旗 标 可 能 存在 的 两 个 值 (0，1 )， 此 二 变 
量 组 合 起 来 便 可 表示 所 有 对 象 的 颜色 。value 列 中 的 每 个 值 模 3 之 后 即 为 对 象 真实 的 hue 值 。 
需要 注意 的 是 ， 由 于 回收 器 永远 不 会 将 紫色 (垃圾 ) 对 象 着 色 ， 所 以 不 可 能 存在 hue=base+2 
H. shaded=1 这 一 情况 。 后 续 增 量 回 收 周 期 中 hue 值 的 含义 将 依照 相同 的 方式 解析 。 
表 16.1 Lamport[1976] 的 颜色 标记 方案 
| aaaeda | vate | colour | vae | colour | vale | 
po [rse | ne | vaser? | Pe | vaser | 


o [m] e e | A | names | 
o | reez | we | vasen | me | base | 
i = e a 


注 : 该 方案 在 标记 过 程 和 清扫 过 程 并 发 的 场景 下 使 用 “hue 和 shaded” 的 颜色 编码 方案 。hue=base H 





shaded=0 代表 白色 ，hue=base H shaded=1 代表 灰色 ，hue=base+1 代表 黑色 ，hue=base+2 代表 紫 
色 。( 紫 色 ) 垃圾 对 象 的 shaded 旗 标 永远 不 会 被 设置 。 当 所 有 标记 器 与 清扫 器 都 执行 完毕 时 ， 堆 中 将 不 存 
在 灰色 或 紫色 对 象 ， 因 而 只 需 简单 地 增加 base 变量 并 将 其 模 3， 便 可 实现 从 黑色 到 和 白色/ 灰色、 从 和 白色 到 
紫色 的 颜色 翻转 。 


为 确保 在 阶段 2 结束 时 堆 中 不 会 有 灰色 对 象 存留 到 下 一 轮回 收 (除非 该 节点 是 由 赋值 器 
刚刚 着 为 灰色 )， 标 记 线 程 在 将 灰色 节点 着 为 黑色 的 同时 也 应 当 清 除 其 shadea 旗 标 ， 和 否则 这 
些 灰 色 对 象 将 在 后 续 回 收 过 程 中 成 为 浮动 垃圾 。 另 外 ， 为 加 速 垃 圾 对 象 的 识别 ， 标 记 器 与 清 
扫 咒 在 遇 到 黑色 对 象 时 也 可 清除 其 灰色 旗 标 。 

Queinnec 等 [1989] 提出 了 一 种 替代 方案 ， 即 在 奇数 轮 和 偶数 轮回 收 周期 中 使 用 相互 独 
立 的 颜色 信息 ， 因 此 当前 回收 周期 的 标记 过 程 可 以 与 上 一 轮回 收 周期 的 清扫 过 程 相互 独 立地 
执行 。 


16.5 即时 标记 


到 目前 为 止 ， 我 们 均 假 定 在 标记 阶段 的 初始 化 或 者 结束 过 程 中 ， 回 收 器 都 需要 将 所 有 赋 
值 融 线程 挂 起 以 扫描 其 根 。 根 的 初始 扫描 结束 之 后 ， 赋 值 器 将 不 会 引用 任何 白色 对 象 ， 此 时 
赋值 器 既 可 以 保持 黑色 状态 继续 运行 《前 提 是 使 用 黑色 赋值 器 屏障 )， 也 可 在 灰色 状态 下 〈 前 
提 是 使 用 灰色 赋值 器 屏障 ) 继续 运行 〈 但 为 确保 标记 过 程 的 正确 结束 ， 回 收 器 最 终 必 须 挂 起 
灰色 赋值 器 并 重新 扫描 其 根 ， 直 到 其 不 再 引用 任何 灰色 对 象 为 止 )。 这 些 万 物 静 止 式 的 操作 
降低 了 回收 的 并 发 程度 。 另 一 种 策略 是 独立 地 对 每 个 赋值 器 的 根 进行 采样 ， 此 过 程 可 以 与 其 
他 赋值 器 线程 并 发 执行 ， 但 这 一 策略 会 引入 额外 的 复杂 度 : 同一 时 刻 某 些 赋 值 器 线程 将 在 灰 
色 状 态 下 执行 ， 而 其 他 赋值 器 线程 则 将 在 黑色 状态 下 执行 ， 且 算法 的 结束 判定 可 能 会 因此 受 
到 影响 。 

即时 回收 永远 不 会 同时 挂 起 所 有 赋值 器 线程 ， 相 反 ， 回 收 器 和 赋值 器 之 间 可 以 通过 一 系 
列 软弱 手 〈soft handshake) 机 制 来 实现 后 者 根 的 扫描 。 这 一 过 程 并 不 需要 回收 器 发 出 全 局 性 
的 硬 同 步 指令 ， 其 只 需要 逐个 地 、 异 步 地 驱使 赋值 器 线程 在 某 个 合适 的 位 置 优雅 地 挂 起 ， 然 
后 再 扫描 (其 至 修改 ) 其 当前 状态 ( 栈 与 寄存 器 )， 最 后 再 恢复 其 执行 。 在 一 个 赋值 器 线程 被 
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挂 起 的 同时 ， 其 他 赋值 器 线程 可 以 不 受 干扰 地 继续 执行 。 另 外 ， 如 果 进 一 步 使 用 第 11.5 节 

所 介绍 的 栈 屏障 技术 ， 则 当 线程 被 挂 起 时 ， 回 收 器 可 以 仅 对 其 栈 顶 的 活动 记录 栈 帧 进行 检查 

ar gl kc a lm a E 
减少 了 停顿 时 间 。 


16.5.1 即时 回收 的 写 屏 障 


即时 回收 融 中 同步 操作 的 设计 应 当 十 分 谨慎 。 对 于 挂 起 所 有 赋值 器 线程 并 扫描 其 栈 的 主 
体 并 发 回收 器 而 言 ， 一 种 常见 的 实现 方案 是 使 用 黑色 赋值 器 并 辅 以 删除 屏障 ， 同 时 将 新 分 配 
的 对 象 着 为 黑色 。 在 该 方案 中 ， 回 收 器 无 需 重新 扫描 黑色 对 象 ， 且 分 配器 不 会 给 回收 器 带 来 
更 多 工作 ， 因 而 简化 了 标记 阶段 的 结束 过 程 。 但 是 ， 该 方案 却 不 能 满足 即时 回收 器 的 要 求 ， 
如 图 16.1 所 示 。 由 于 扫描 过 程 是 即时 的 而 非 万 物 静 止 式 的 ， 所 以 有 可 能 出 现 黑色 赋值 器 与 
白色 赋值 器 共存 的 情况 。 将 新 分 配对 象 着 为 黑色 ， 意 味 着 在 回收 器 完成 所 有 赋值 器 线程 的 扫 
描 之 前 ， 也 就 是 追踪 过 程 开始 之 前 ， 堆 中 便 已 经 可 能 存在 黑色 对 象 。 由 于 栈 操 作 无 法 触发 删 
除 屏障 ， 且 不 存在 插入 屏障 ， 所 以 对 象 X 和 YY 都 无 法 被 着 为 灰色 。 总 之 ， 为 即时 标记 过 程 
设计 正确 的 赋值 器 一 回收 器 同步 机 制 是 一 个 十 分 复杂 的 问题 ， 它 需要 算法 的 设计 者 必须 十 分 
小 心地 避免 错误 。 


gos 线程 1 线程 2 
的 栈 的 栈 
a) 删除 屏障 处 a 此 时 回收 器 已 b) 线程 2 将 X 的 某 个 指针 域 更 新 为 Y 的 引 
完成 线程 1 的 扫描 ， 但 线程 2 尚未 得 到 扫描 。 用 ,同时 从 本 地 栈 中 将 Y 的 引用 移 除 ,但 上 述 
新 分 配 的 对 象 X 将 被 着 为 黑色 两 步 操作 均 不 会 触发 删除 屏障 


图 16.1 对 于 即时 回收 器 而 言 ， 如 果 仅 使 用 “将 新 分 配对 象 着 为 黑色 ， 且 使 用 删除 屏障 ”这 一 策略 ， 堆 
中 仍 有 可 能 存在 某 一 白色 对 象 仅 从 黑色 对 象 可 达 


16.5.2 Doligez-Leroy-Gonthier 回收 器 


使 用 软 握手 机 制 来 初始 化 标记 过 程 的 方法 最 早 应 用 在 针对 ML 编程 语言 的 标记 一 清扫 回 
收 需 中 ， 根 据 其 作者 的 名 字 [Doligez and Leroy，1993 ; Doligez and Gonthier，1994]， 该 回 
收 器 被 命名 为 Doligez-Leroy-Gonthier 回收 器 。 该 回收 器 使 用 线程 本 地 堆 ， 因 此 回收 器 可 以 
对 仅 被 单个 线程 使 用 而 不 与 其 他 线程 共享 的 数据 进行 独立 回收 。 系 统 使 用 一 个 全 局 堆 来 存储 
线程 共享 对 象 ， 同 时 要 求全 局 堆 中 的 对 象 不 得 包含 任何 指向 线程 私有 堆 的 指针 。 一 旦 某 一 线 
程 本 地 堆 中 的 对 象 被 其 他 线程 引用 ， 系 统 的 动态 逃逸 检 测 机 制 便 会 捕获 这 一 信息 并 将 其 复制 
到 共享 堆 中 。 回 收回 只 允许 不 可 变 对 象 在 线程 本 地 堆 中 分 配 ( ML 语言 中 绝 大 多 数 对 象 都 是 
ro ie pA ee rte et 
制 可 达 对 象 的 传递 闭 包 )。 但 由 于 ML 中 的 对 象 修改 操作 很 少 ， 因 而 逃逸 现象 也 较 少 发 
这 些 规则 允许 回收 器 在 仅 挂 起 一 个 赋值 器 线程 的 情况 下 独立 完成 其 堆 的 回收 。 
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为 避免 更 新 每 个 线程 指向 共享 堆 的 引用 ，Doligez-Leroy-Gonthier 使 用 并 发 标记 一 清扫 
策略 来 管理 共享 堆 。 当 并 发 标记 -清扫 回收 器 稳定 工作 时 ，Yuasa 式 快 照 删 除 屏 障 将 保证 赋 
值 器 始终 处 于 黑色 状态 。 在 回收 工作 达到 稳定 状态 之 前 ， 回 收 器 需要 通过 一 系列 软 握 手机 制 
来 将 赋值 器 线程 从 灰色 转变 为 黑色 ， 其 具体 流程 如 下 。 

回收 器 以 及 每 个 赋值 器 线程 都 通过 一 个 私有 状态 变量 来 反映 其 所 感知 到 的 回收 状态 。 为 
启动 新 一 轮回 收 周 期 ， 回 收 器 将 自身 状态 设置 为 Sync,， 其 他 赋值 器 线程 可 以 通过 软 握 手机 
制 感知 到 这 一 信息 ， 并 据 此 更 新 自身 状态 。 一 旦 所 有 赋值 器 线程 均 完 成 对 Sync, 软 握 手 请 求 
的 应 答 ， 则 回收 器 将 真正 处 于 Sync, 阶段 。 赋 值 器 线程 在 设置 某 一 指针 域 或 者 分 配 过 程 中 
将 忽略 软 握手 请 求 ， 目 的 是 为 了 确保 在 进行 软 握手 之 前 这 些 操 作 已 经 执行 完毕 ， 进 而 确保 
这 些 操作 在 状态 变更 时 的 原子 性 。Synci 软 握手 完成 后 ， 每 个 赋值 器 线程 将 执行 算法 16.3a 
所 示 的 写 屏 障 ， 该 屏障 会 对 被 修改 指针 域 的 新 旧 目标 对 象 分 别 进行 着 色 ， 其 本 身 相 当 于 是 
黑色 赋值 器 Yuasa 式 起 始 快照 删除 屏障 和 灰色 赋值 器 Dijkstra 式 增 量 更 新 插入 屏障 的 混合 
体 。 赋 值 器 并 不 会 将 其 所 着 色 的 对 象 直接 添加 到 回收 器 的 工作 列表 中 以 进行 扫描 (Kung and 
Song[1977] 便 采 用 这 一 策略 )， 而 只 是 简单 地 将 白色 对 象 着 为 灰色 ， 然 后 再 设置 全 局 dirty 
旗 标 来 通知 回收 器 扫描 新 的 灰色 对 象 (类 似 于 Dijkstra 等 [1978] 所 使 用 的 策略 )。 尽 管 这 一 
策略 可 以 避免 赋值 器 和 回收 器 之 间 进 行 显 式 同步 (与 软 握手 机 制 不 同 ， 软 握手 机 制 实现 原子 
化 的 方法 是 简单 地 推迟 对 握手 请 求 的 应 答 ), 但 其 同时 也 意味 着 在 最 坏 情 况 下 ， 标 记 阶 段 的 
结束 过 程 需要 重新 扫描 整个 堆 以 找 出 其 中 的 灰色 对 象 ， 由 于 ML 中 的 对 象 修改 操作 极 少 ， 所 
以 这 一 问题 不 会 对 算法 的 实现 造成 太 大 影响 。Sync, 软 握手 完成 后 ， 灰 色 赋 值 器 线程 所 分 配 
的 对 象 依 然 为 白色 (与 回收 周期 开始 前 的 分 配 颜 色相 同 )。 

算法 16.3 ”Doligez-Leroy-Gonthier 写 屏 障 (此 处 均 忽 略 了 握手 操作 ) 
a) 同步 屏障 b) 异步 屏障 
Writesync(srce, i, new): 
old + src[i] old + src[i] 


1 
2 
3 shade(old) if not isBlack(old) 
4 
5 


1 WriteAsync(src, i, new): 
2 
3 
shade(new) ‘ shade(old) 
5 
6 
7 


src[i] + new if old < scanned 
dirty + true 
src[i] + new 


当 所 有 赋值 器 线程 都 完成 对 Sync, 握手 的 应 答 之 后 ， 回 收 器 将 进入 下 一 个 阶段 ， 即 
Syn, 阶段 ， 该 阶段 同样 需要 经 过 一 轮 握 手 过 程 。 设 置 写 屏 障 操 作 的 原子 性 只 是 针对 握手 过 
程 的 ， 这 并 不 能 保证 所 有 赋值 器 线程 同步 完成 写 屏障 的 设置 ， 这 便 可 能 导致 如 下 一 种 情况 的 
HA: 当 某 个 已 经 激活 写 屏障 的 线程 执行 完 o19 一 src [i] 操作 之 后 S ， 其 他 尚未 激活 写 屏障 
的 赋值 器 线程 8 可 能 会 立即 将 另 一 个 指针 和 写 人 src[i]， 此 时 shaae(ola) 所 着 色 的 对 象 将 
不 是 真正 会 被 src [i] + new 这 一 操作 所 覆盖 的 指针 OX. Sync, 阶段 的 引入 正 是 为 了 解决 这 一 
问题 ， 在 进入 该 阶段 之 后 ， 回 收 器 便 可 以 确定 所 有 赋值 器 在 Sync, 握手 之 前 的 Async 阶段 已 
完成 未 被 监控 到 的 原子 化 分 配 操作 或 写 操 作 ， 此 时 所 有 赋值 器 都 已 经 在 执行 〈 带 插 人 保护 的 ) 
写 屏 障 ， 因 而 即使 写 屏 障 的 执行 发 生 交错 也 不 会 产生 任何 问题 。 此 时 回收 器 将 发 起 Asyne 握 


O 即 算法 16.3a 第 2 行 执行 完毕 。 一 一 译 者 注 
© 即 尚未 完成 Sync, 握手 。 一 一 译 者 注 
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手 ， 每 个 赋值 器 响应 Async 握手 的 方法 是 : 为 回收 器 扫描 自身 的 根 (将 自身 着 为 黑色 )、 启 用 
黑色 对 象 分 配 、 将 写 屏障 切换 为 标准 的 快照 屏障 ， 该 屏障 会 通过 设置 全 局 dirty 旗 标 的 方式 
(XWF Dijkstra 等 [1978] 的 方案 ) 来 通知 回收 器 对 可 能 插入 到 追踪 波 面 之 后 的 灰色 对 象 进 行 
扫描 ， 如 算法 16.3b 所 示 。 此 时 回收 器 便 可 安全 地 进入 稳 态 快照 标记 阶段 ， 即 Async 阶段 。 

标记 阶段 结束 后 便 可 开始 清扫 过 程 。 与 Steele[1975] 的 策略 类 似 ， 为 减少 浮动 垃圾 ， 清 
扫 指 针 的 位 置 将 决定 赋值 器 新 分 配对 象 的 颜色 : 诞生 于 已 清扫 空间 的 新 对 象 将 为 白色 (该 空 
间 中 得 垃圾 已 经 得 到 释放 )， 反 之 则 为 黑色 (以 避免 错误 地 将 其 清扫 )， 如 果 新 对 象 位 于 回收 
器 正在 进行 并 发 清扫 的 区 域 ， 则 其 将 为 灰色 (以 避免 与 清扫 器 在 两 个 区 域 的 边界 产生 竞争 ) 
( 见 表 16.2). 

表 16.2 Doligez-Leroy-Gonthier 回收 器 中 的 状态 变迁 
阶段 含义 
所 有 赋值 器 均 未 激活 Syne 屏障 
Sync, | Async, Sync, 某 些 赋值 器 可 能 在 执行 Sync 屏障 


某 些 赋值 器 可 能 已 经 成 为 黑色 ， 并 且 正 在 执行 Async 屏障 ; 但 其 他 赋值 器 仍 在 
Sync, | Sync, Sync,, Sync, i 
执行 Sync 屏障 


Sync, | Sync, 所 有 赋值 器 均 在 执行 Async 屏障 
Async | Sync, Async 某 些 赋值 器 为 黑色 ， 并 且 所 有 赋值 器 均 在 执行 Async 屏障 
所 有 赋值 器 均 为 黑色 ， 回 收 器 可 以 开始 进行 标记 、 扫 措 、 清 扫 等 操作 


16.5.3 Doligez-Leroy-Gonthier 回收 器 在 Java 中 的 应 用 


Domani 等 [2000] 讨论 了 如 何在 Java 环境 下 使 用 Doligez-Leroy-Gonthier 回收 器 ， 他 们 需 
要 额外 考虑 Java 环境 下 较 高 的 对 象 变更 率 ， 以 及 诸如 弱 引 用 和 终结 机 制 等 语言 相关 特征 。 由 
于 Java 通常 不 支持 不 可 变 对 象 ， 所 以 他 们 不 再 使 用 独立 的 线程 本 地 堆 回 收 策略 ， 而 是 简单 地 
对 全 局 共享 堆 进行 即时 回收 。 原 版 Doligez-Leroy-Gonthier 回收 器 假定 处 理 器 满足 顺序 一 致 性 
模型 ， 而 Domani 等 人 的 改进 则 可 以 在 内 存 一 致 性 更 弱 的 多 处 理 器 上 正确 执行 。 为 避免 回收 
器 重新 扫描 刚刚 被 赋值 器 着 为 灰色 的 对 象 (此 类 对 象 在 诸如 Java 等 以 对 象 变更 为 导向 的 语言 
中 十 分 普遍 )，Domani 等 为 每 个 赋值 器 线程 配备 了 一 个 输出 受 限 双 端 队列 ( output-restricted 
double-ended queue)， 赋 值 器 可 以 将 灰色 对 象 压 人 队列 的 一 端 ， 回 收 器 则 可 以 使 用 轮 询 的 方式 
从 另 一 端 获 取 工 作 ， 这 一 策略 可 以 最 大 限度 地 减少 写 屏 障 中 赋值 器 与 回收 器 之 间 的 同步 开销 。 


16.5.4 ”滑动 视图 


Azatchi 等 [2003] 在 即时 标记 方面 做 了 进一步 探索 ， 他 们 使 用 滑动 视图 ( sliding views) 

策略 来 对 赋值 器 根 进行 采样 ， 该 策略 无 需 引 入 万物 静止 式 的 停顿 [Levanoni and Petrank, 
1999]。 相 对 于 Domani 等 [2000] 所 使 用 的 双 端 队列 ， ee 
法 是 将 标记 过 程 中 某 一 对 象 被 修改 (着 色 ) 之 前 所 有 域 的 状态 记录 到 线程 本 地 缓冲 区 中 ， 
冲 区 中 的 元 素 将 通过 软 握手 的 方式 一 次 性 全 部 转移 给 回收 器 。 当 所 有 缓冲 区 均 为 空 时 ， 
阶段 结束 。 与 Doligez-Leroy-Gonthier 回收 器 类 似 ， 在 首次 握手 之 后 、 所 有 赋值 器 的 删除 屏 
障 都 得 到 激活 之 前 ， 赋 值 器 还 需要 执行 一 个 Dijkstra 式 增 量 更 新 插 人 屏障 ， 目 的 是 避免 在 赋 
值 器 快照 获取 完成 之 前 出 现 无 法 被 写 屏 障 感知 到 的 指针 写 操作 。 被 “窥探 ” 写 操作 (snooped 
store) 所 写 和 的 引用 也 将 成 为 新 的 追踪 来 源 9。 在 回收 器 确定 所 有 赋值 器 线程 都 已 经 开始 记录 
快照 之 后 ,“ 罕 探 ” 写 人 即 可 停止 。 进 一 步 细 节 我 们 将 在 18.5 节 讨论 。 


O 所 谓 “ 罕 探 ” 是 指 写 操 作 在 覆盖 目标 域 之 前 先 读 取 其 原 有 的 指针 ， 如 算法 16.3a。 一 一 译 者 注 
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16.6 ”抽象 并 发 回收 框架 


不 同 的 并 发 回收 器 之 间 存 在 许多 相同 的 设计 特征 与 机 制 ， 它 们 只 是 在 一 些 细微 但 重要 
的 细节 上 存在 差异 ， 因 此 我 们 可 以 采用 一 种 并 发 垃圾 回收 通用 抽象 框架 [Vechev “F, 2005, 
2006 ; Vechev, 2007] 来 凸显 它们 之 间 的 相同 点 以 及 不 同 点 。 我 们 知道 ， 并 发 回收 器 的 正确 
性 取决 于 赋值 器 和 回收 器 在 并 发 状态 下 的 协作 方式 ， 因 此 抽象 并 发 回收 需 将 所 有 与 回收 器 和 
赋值 器 相关 的 事件 记录 到 共享 链表 Log 中 ， 这 些 事件 包括 : 

e T<src, fld, old, new>; 回收 器 已 经 追踪 (Trace) 过 来 源 对 象 src 中 的 指针 域 na， 
该 域 原 本 记录 的 是 对 象 ola 的 引用 ， 而 回收 器 将 其 修改 为 新 的 引用 new， 也 就 是 说 ， 
回收 器 扫描 对 象 图 中 的 边 src 一 ola， 并 将 其 替换 为 src new, 

N<ref>: 赋值 器 分 配 了 新 (New) 对 象 ref。 
R<src, fld, old>: 赋值 器 在 堆 中 发 起 一 次 读 (Read) 操作 ， 该 操作 从 来 源 对 象 src 
的 aa 域 中 加 载 了 引用 olas 
e Wesrc, fld, old, new>; 赋值 器 在 堆 中 发 起 一 次 写 (Write) 操作 ， 该 操作 将 引用 new 
写 入 来 源 对 象 src 的 aa 域 中 ， 该 域 中 原本 记录 的 值 是 ola。 如 果 na 是 一 个 指针 域 ， 
则 该 操作 会 将 对 象 图 中 的 边 src old 替换 为 新 的 边 src 一 new。 

此 处 的 src, fla, ola, new 分 别 为 来 源 对 象 的 地 址 、 来 源 域 的 地 址 、 老 /新 目标 对 象 的 
地 址 。 回 收 器 事件 集合 T 所 记录 的 是 已 被 赋值 器 扫描 过 的 域 集合 ， 对 于 非 移 动 式 回 收 器 而 
言 ， 追 踪 过 程 不 会 修改 堆 中 对 象 的 引用 ， 因 而 在 事件 集合 T 中 ola=new。 赋 值 器 事件 集合 N 
记录 的 是 赋值 器 的 分 配 操作 ; 赋值 器 时 间 集 合 RR、W 记录 的 是 赋值 器 访问 或 修改 过 的 域 。 

算法 16.4 描述 了 并 发 标记 -清扫 回收 器 的 抽象 算法 ， 该 算法 脱胎 于 算法 6.1 所 描述 的 抽 
象 追踪 式 回 收 器 ， 并 针对 回收 器 和 赋值 器 并 发 执行 的 场景 进行 了 改造 。 算 法 的 执行 过 程 依然 
符合 传统 的 标记 一 清扫 回收 ， 即 首先 从 根 开始 进行 追踪 ， 以 便 扫 描 所 有 可 达 对 象 ， 然 后 再 通 
过 清扫 的 方式 回收 不 可 达 对 象 。 扫 描 工作 单元 将 在 scanTracingInc 方 法 中 原子 化 地 执行 ; Th 
行 清扫 过 程 的 sweepTracing 方法 也 需要 引入 适当 的 同步 机 制 ， 我们 此 处 略 去 其 具体 实现 细节 。 

在 回收 初始 化 阶段 ， 回 收费 会 通过 rootsTracing 原子 化 地 对 赋值 器 根 进行 采样 ， 同 时 
清空 所 有 日 志 。 为 避免 采样 过 程 中 赋值 器 线程 并 发 地 修改 其 根 ， 该 阶段 使 用 原子 化 〈 即 万 物 
静止 ) 的 扫描 方式 以 降低 复杂 度 。 而 即时 回收 器 则 可 以 在 不 引入 万 物 静 止 式 停顿 的 前 提 下 完 
成 赋值 器 根 的 采样 。 

完成 赋值 器 根 的 采样 之 后 ， 赋 值 器 将 恢复 执行 并 与 回收 器 并 发 运行 。 回 收 器 将 不 断 地 扫 
描 对 象 ， 并 且 对 赋值 器 并 发 写 操作 所 产生 的 新 的 工作 任务 进行 处 理 。 

当 扫描 循环 执行 到 一 定 程 度 时 ， 回 收 器 可 以 根据 某 些 (此 处 暂时 无 法 确定 的 ) 因素 Ge 
AQ) 来 结束 该 循环 。 当 回收 器 进入 到 结束 阶段 时 ， 为 确保 当前 回收 周期 的 顺利 结束 ， 回 收 
器 必须 原子 化 地 完成 剩余 的 回收 工作 《〈 即 阻止 赋值 器 执行 写 操作 )。 扫 描 工 作 会 在 阻止 所 有 
并 发 写 操作 的 情况 下 原子 化 地 执行 ， 这 对 于 确保 回收 周期 的 顺利 结束 通常 是 必要 的 。 但 在 实 
践 中 ， 某 些 算法 可 能 并 不 需要 这 一 原子 化 的 结束 阶段 。 

scanTracingInc 方法 使 用 与 传统 回收 器 相同 的 方式 来 遍历 堆 ， 但 其 执行 过 程 却 是 增 
量 式 的 、 与 赋值 器 交替 进行 的 。 与 算法 6.1 中 的 scantracing 方法 的 唯一 不 同 之 处 在 于 ， 
scanTracingInc 方法 将 回收 器 所 遍历 到 的 域 及 其 所 包含 的 引用 添加 到 日 志 中 的 操作 必须 是 原 
子 化 的 。 

addorigins 方法 调用 了 一 个 尚未 定义 的 函数 exzpose， 该 函数 可 以 根据 日 志 中 的 首 个 元 
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素 返回 一 个 对 象 集合 ， 回 收 器 以 该 对 象 集 合作 为 追踪 源头 〈 origin)， 从 而 会 发 现 更 多 的 存活 
对 象 。 抽 象 并 发 回收 框架 是 通过 这 一 函数 实现 参数 化 的 ， 即 该 函数 的 不 同 实现 将 会 衍生 出 不 
同 的 抽象 并 发 回收 算法 ， 每 种 不 同 的 抽象 算法 可 以 对 应 文献 中 的 一 种 具体 回收 算法 ， 稍 后 我 
们 将 给 出 具体 的 实现 案例 。 正 是 由 于 日 志 的 存在 ， 回 收 器 才能 避免 扫描 过 程 遗漏 可 达 对 象 的 
情况 ， 和 否则 插入 到 回收 波 面 之 后 的 对 象 将 无 法 得 到 标记 。 


算法 16.4 ”主体 并 发 增 量 追 踪 式 垃圾 回收 
shared log + () 


1 

2 

3 collectTracingInc(): 

4 atomic 

5 rootsTracing(W) 
6 log + () 

7 repeat 

8 scanTracingInc(W) 
9 addOrigins() 

10 until ®© 

u atomic 

2 addorigins() 

13 scanTracingInc(W) 
14 sweepTracing() 


% scanTracingInc(W): 


v while not isEmpty(W) 

18 src + remove(W) 

» if p(src) = 0 /* 引用 计数 为 零 */ 
20 for each fld in Pointers(src) 

z atomic 


ref + *fld 


2 

2 log + log + T(src, fld, ref, ref) 
2 if ref # null 

25 W + W + [ref] 

26 p(src) + p(src)+1 /* 增加 引用 计数 */ 
27 

2% addOrigins(): 

2 atomic 

30 origins + expose(log) 

31 for each src in origins 

2 W + W + [src] 

3 

a New(): 

35 ref + allocate() 

36 atomic 

37 p(ref) + 0 

38 log + log - N(ref) 

39 return ref 

40 à 

4 atomic Write(src, i, new): 

2 if src # roots 

4 old + srcli] 

“ log + log - W(src, &src[i], old, new) 
5 src[i] + new 


16.6.1 回收 波 面 
在 并 发 场景 下 ， 回 收 器 和 赋值 器 之 间 需 要 密切 协作 以 确保 回收 的 正确 性 。 日 志 记录 了 回 
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收 器 在 堆 中 的 追踪 进度 ， 其 具体 表现 形式 便 是 事件 集合 T， 该 集合 同时 也 构成 了 回收 过 程 的 
波 面 。 协 作 的 关键 在 于 如 何 处 理 交 替 发 生 的 赋值 器 事件 (集合 N、R、W)， 具 体 取决 于 这 些 
事件 所 操作 的 堆 中 数据 是 已 被 回收 器 扫描 过 (即位 于 回收 波 面 之 后 )， 还 是 尚未 得 到 扫描 〈 即 
位 于 回收 波 面 之 前 )。 回 收 波 面 本身 是 由 待 扫描 域 (而 非 这 些 域 中 所 记录 的 指针 的 值 ) 的 集 
合 所 组 成 的 。 实 践 中 的 回收 器 通常 会 使 用 近似 的 方式 来 实现 该 波 面 ， 每 种 近似 方式 的 精度 都 
各 不 相同 ， 例 如 以 域 为 单位 ,或 者 以 对 象 为 单位 、 以 页 为 单位 、 以 其 他 物理 或 逻辑 单元 为 单 
位 等 。 


16.6.2 ”增加 追踪 源头 


addorigins 方法 通过 对 日 志 的 处 理 来 发 现 新 的 存活 对 象 ， 仅 靠 回收 器 的 追踪 过 程 有 可 能 
永远 无 法 发 现 某 些 存活 对 象 ， 因 为 赋值 器 操作 可 能 会 将 其 隐藏 到 回收 波 面 之 后 。 函 数 expose 
的 具体 实现 决定 了 其 所 返回 的 追踪 源头 的 精度 。 


16.6.3 ”赋值 器 屏障 


New 和 write 方法 展示 了 赋值 器 所 需 执行 的 屏障 (它们 需要 适当 地 进行 原子 化 )， 在 抽象 
并 发 回收 框架 中 ， 它 们 的 任务 是 将 自身 事件 添加 到 日 志 中 ， 并 以 此 完成 与 回收 器 之 间 的 协 
作 。 新 分 配对 象 将 被 记录 到 集合 N， 因 而 赋值 器 在 后 续 执行 过 程 中 便 可 分 辨 出 读 / 写 某 一 新 
对 象 域 的 操作 ， 也 可 分 辨 出 以 新 对 象 的 引用 作为 参数 的 读 / 写 操作 。 新 分 配 的 对 象 通常 仅 具 
有 唯一 的 引用 来 源 ( 即 来 自 赋值 器 的 根 一 一 译 者 注 )， 直 到 赋值 器 将 其 写 入 堆 中 的 某 个 域 为 
止 。 此 外 ， 新 分 配对 象 也 不 会 包含 任何 引用 〈 所 有 域 都 将 被 初始 化 为 null， 直 到 其 某 个 指针 
域 得 到 修改 为 止 )。 具 体 的 回收 器 可 以 根据 这 些 特 征 来 决定 在 回收 周期 中 新 分 配对 象 的 存活 
PE: 某 些 回收 器 会 忽略 这 些 对象 的 可 达 性 ， 并 将 其 全 部 当 作 存 活 对 象 ， 这 将 导致 其 中 的 不 可 
达 对 象 只 能 在 下 一 轮回 收 中 得 到 释放 ; 其 他 回收 器 则 只 有 当 新 分 配对 象 的 引用 真正 被 写 人 存 
活 对 象 之 后 ， 才 会 将 其 保留 。 

与 非 并 发 场景 的 写 操作 类 似 ，write 操作 同样 会 执行 src [i] new (H new 关 null) 这 一 
操作 ， 因 而 指向 对 象 new 的 指针 将 被 插入 到 对 象 src 的 sroti) 域 中 ， 相 应 地 ，src [i] 中 原 
有 的 指针 ola 将 从 对 象 src 中 删除 。 如 果 sroti 位 于 回收 波 面 之 后 ， 则 指针 new/ola 的 插 
入 /删除 操作 都 将 发 生 在 回收 波 面 之 后 。 写 操作 集合 W 将 同时 捕获 赋值 器 所 插入 以 及 删除 
的 指针 。 

类 似 地 ， 回 收 波 面 也 可 通过 三 色 抽象 来 表示 : 位 于 回收 波 面 之 前 的 对 象 / 域 为 白色 ; 位 
于 其 上 的 为 灰色 ， 位 于 其 后 的 为 黑色 。 


16.6.4 ”精度 


算法 16.4 所 示 的 抽象 并 发 回收 器 使 用 了 固定 的 原子 化 级 别 ( 即 带 atomic 前 缀 的 代码 
Et), expose 函数 的 不 同 实现 将 决定 算法 的 精度 。 在 抽象 并 发 回收 框架 中 对 这 一 参数 进行 调 
整 ， 我 们 即 可 获得 各 种 文献 中 所 描述 的 并 发 回收 器 的 一 个 典型 子 集 ， 但 由 于 实践 中 的 某 些 回 
收 器 在 原子 化 方面 与 算法 16.4 并 不 完全 一 致 ， 所 以 还 有 一 些 并 发 回收 器 无 法 直接 由 抽象 并 
发 回收 的 框架 推导 而 来 。 例 如 ， 算 法 16.4 假定 回收 器 可 以 原子 化 地 获取 各 赋值 器 线程 的 根 ， 
这 便 要 求 回收 器 必须 使 用 同步 的 方式 进行 采样 ， 其 实现 方式 很 可 能 是 简单 地 将 所 有 赋值 器 线 
程 挂 起 (也 就 是 说 ， 算 法 16.4 只 是 主体 并 发 的 )。 
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16.6.5 ”抽象 并 发 回收 器 的 实例 化 


如 果 要 将 抽象 并 发 回收 框架 实例 化 ， 则 需 定 义 具 体 的 expose 函数 。 例 如 ，Steele 式 并 
发 回收 器 需要 重新 扫描 所 有 被 修改 对 象 并 将 其 加 入 回收 波 面 ， 从 对 象 和 域 的 级 别 来 看 ， 回 收 
波 面 是 通过 对 日 志 中 每 个 条 目 所 记录 的 对 象 / 域 进行 追踪 (Trace) 而 建立 的 ; 日 志 中 每 个 写 
(Write) 操作 的 src 参数 构成 了 被 修改 对 象 的 集合 ，aa 参数 则 构成 了 被 修改 域 的 集合 。 
Steele 式 回收 器 中 ，expose 函数 的 实现 是 原子 化 地 重新 扫描 已 经 追踪 过 但 又 被 修改 的 域 。 传 
统 的 追踪 方式 是 为 每 个 对 象 设 置 一 个 标记 位 ， 此 时 回收 波 面 的 构成 单元 将 是 对 象 ( 即 追踪 集 
合 T 中 的 src 参数 ), 但 抽象 并 发 回收 框架 同样 允许 以 域 为 单位 来 构建 回收 波 面 ， 即 允许 通 
过 某 种 机 制 对 单个 域 进行 标记 ， 此 时 对 于 已 经 追踪 过 的 对 象 ， 回 收 器 便 可 仅 对 被 修改 的 域 而 
韭 整个 对 象 进 行 重新 扫描 。 男 外 ，Steele 认为 赋值 器 线程 栈 的 数据 变更 十 分 频繁 ， 因 而 对 线 
程 栈 的 重新 扫描 应 当 推 迟到 追踪 过 程 的 末尾 。 追 踪 过 程 的 结束 条 件 是 ， 对 于 日 志 中 的 每 条 追 
踪 记录 T， 在 位 于 该 记录 之 后 的 其 他 所 有 记录 中 ， 不 存在 与 T 相 对 应 的 写 操作 (Write) 记录 
(以 对 象 或 者 域 为 单位 ) 2 。 

经 典 的 Dijkstra 式 回收 右 会 无 条 件 地 将 所 有 写 入 堆 中 的 引用 着 色 ， 其 expose 函数 的 实现 
是 : 获取 写 操作 记录 中 的 参数 new 并 将 其 添加 到 回收 波 面 的 追踪 ( Trace) 记录 中 。 需 要 注意 
的 是 ， 回 收 器 可 以 直接 从 日 志 中 获取 new 引 用， 同时 无 需 重新 扫描 src/tta。 其 追踪 过 程 的 结 
RAVES Steele[1976] 类 似 。 

对 于 Yuasa 式 快 照 回收 器 ， 其 expose 函数 的 实现 是 : 对 于 日 志 中 的 每 条 写 操作 记录 ， 
如 果 在 该 记录 之 后 不 存在 与 之 对 应 的 追踪 记录 。， 则 返回 该 记录 中 的 ola 引用 。 该 屏障 将 在 
赋值 器 修改 目标 对 象 之 前 创建 追踪 记录 并 完成 追踪 ， 因 而 与 基于 增 量 更 新 策略 的 屏障 相 比 ， 
其 回收 结束 的 速度 更 快 。 


16.7 需要 考虑 的 问题 


并 发 标记 - 清扫 回收 中 的 许多 问题 都 属于 所 有 并 发 回收 器 的 共性 问题 。 母 庸 置疑 ， 与 万 
物 静止 式 的 回收 器 相 比 ， 并 发 回收 器 在 设计 、 实 现 以 及 调试 方面 都 更 加 复杂 。 因 此 在 设计 并 
发 回收 器 时 我 们 首先 应 当 考 虑 ， 实 际 上 是 否 需要 引入 这 种 额外 的 复杂 度 ? 是 否 应 用 诸如 分 代 
回收 器 等 简单 的 解决 方案 就 已 经 足够 ? 
对 于 绝 大 多 数 的 应 用 程序 而 言 ， 分 代 回 收 器 已 经 可 以 满足 数 毫秒 级 别 的 停顿 时 间 要 求 ， 
但 在 最 差 情 况 下 ( 即 整 堆 回 收 时 )， 其 回收 停顿 时 间 可 能 会 陡 增 ,， 具体 取决 于 堆 空 间 大 小 以 
及 存活 对 象 总 量 等 因素 。 这 一 较 长 的 停顿 时 间 可 能 无 法 令 用 户 接受 ， 相 比 之 下 ， 并 发 回收 
器 的 停顿 时 间 更 短 、 更 具有 可 预测 性 。 我 们 将 在 第 19 章 看 到 ， 设 计 良 好 的 实时 回收 器 (real- 
time collection) 可 以 确保 其 停顿 时 间 小 于 毫秒 级 别 ， 但 鱼 和 能 掌 不 可 兼 得 ， 此 时 赋值 器 和 回 
收 器 通常 都 需要 承担 显著 的 额外 开销 。 为 了 限制 回收 停顿 时 间 ， 回 收 器 不 仅 应 当 是 并 发 的 ， 
还 应 当 是 即时 (on-the-fly) 的 ， 即 回收 器 仅 应 当 在 一 次 停顿 中 挂 起 一 个 赋值 器 线程 并 扫描 
其 根 。 
并 发 标记 一 清扫 回收 所 存在 的 其 他 问题 与 万 物 静止 式 标 记 一 清扫 回收 类 似 ， 即 所 有 非 移 
动 式 内 存 管理 器 都 会 受到 内 存 碎片 问题 的 影响 。 复 制式 与 整理 式 回收 器 除了 能 够 解决 碎片 问 


O 更 通俗 地 讲 ， 即 每 个 已 经 完成 追踪 的 对 象 / 域 没 有 再 被 修改 过 。 一 一 译 者 注 
O 即 写 操作 中 的 src/19 尚未 得 到 扫描 。 一 一 译 者 注 
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题 ， 其 所 使 用 的 顺序 分 配 策略 通常 也 会 比 空闲 链表 分 配 速度 更 快 ， 且 能 够 给 赋值 器 提供 更 好 
的 局 部 性 。 但 标记 一 清扫 回收 器 不 需要 额外 的 复制 缓冲 区 ， 因 而 其 空间 利用 会 比 复制 式 回收 
器 要 高 。 与 其 他 并 发 回收 算法 相 比 ， 非 移动 式 并 发 标记 - 清扫 算法 还 存在 一 个 显著 优势 ， 即 
它 的 堆 一 致 性 模型 (heap coherency model) 更 加 简单 。 不 论 是 对 于 哪 种 并 发 回收 器 ， 为 避免 
赋值 器 操作 导致 某 一 可 达 对 象 相对 回收 器 不 可 见 ， 赋 值 器 均 需 将 自身 堆 拓 扑 结构 变化 的 信息 
通知 给 回收 器 。 另 外 ， 移 动 式 回 收 器 不 仅 要 确保 同一 对 象 只 会 被 一 个 线程 迁移 ， 还 应 当 确 保 
在 赋值 器 看 来 ， 更 新 被 迁移 对 象 全 部 引用 来 源 的 操作 应 当 是 原子 化 的 。 

并 发 标记 一 清扫 回收 器 还 允许 设计 者 选择 多 种 不 同 的 具体 实现 策略 。 与 其 他 并 发 回收 器 
类 似 ， 新 分 配对 象 的 颜色 可 以 为 黑色 、 灰 色 或 者 白色 。 黑 色 赋 值 器 要 求 所 有 新 分 配对 象 的 颜 
色 均 为 黑色 ; 灰色 赋值 器 既 可 以 使 用 白色 分 配 ， 也 可 以 使 用 灰色 或 者 黑色 分 配 ， 具 体 的 着 色 
策略 取决 于 当前 所 处 的 回收 阶段 、 新 对 象 域 的 初始 值 、 清 扫 器 的 处 理 进 度 等 因素 。 

我 们 将 在 后 续 章 节 中 探讨 并 发 复制 与 并 发 整理 回收 器 ， 最 后 将 介绍 可 以 满足 硬 实时 系统 
停顿 要 求 的 回收 器 ， 其 回收 停顿 时 间 能 够 满足 系统 所 有 的 响应 时 限 要 求 。 
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并 发 复制 、 并 发 整理 算法 


本 章 我 们 将 介绍 并 发 复制 与 并 发 整理 回收 算法 ， 它 们 均 可 在 赋值 器 执行 的 同时 并 发 地 移 
动 对 象 ， 从 而 完成 堆 中 碎片 的 整理 。 我 们 曾 在 第 3 章 和 第 4 章 分 别 介 绍 过 整理 式 与 复制 式 回 
收 ， 本 章 我 们 将 考虑 如 何 将 其 扩展 到 与 赋值 器 并 发 执行 的 环境 中 。 

我 们 首先 关注 基于 复制 的 回收 技术 ， 即 先 将 来 源 空 间 中 的 可 达 对 象 复 制 到 目标 空间 ， 然 
后 再 将 来 源 空间 整体 回收 。 回 顾 第 4 章 我 们 可 知 ， 在 扫描 存活 对 象 的 过 程 中 ， 回 收 器 必须 将 
所 有 来 源 空间 指针 重 定向 到 目标 空间 ， 即 : 使 用 转发 地 址 替换 每 个 来 源 空 间 指针 ， 并 在 首次 
发 现 来 源 空间 中 的 某 一 对 象 时 将 其 复制 到 目标 空间 。 

并 发 复制 回收 不 仅 要 确保 回收 器 免 受 赋值 器 修改 操作 的 影响 ， 而 且 还 要 确保 赋值 器 免 受 
回收 器 并 发 复制 对 象 的 影响 。 另 外 ， 对 于 回收 顷 正 在 复制 的 对 象 ， 回 收 器 对 其 原始 副本 的 修 
改 必 须 能 够 同步 到 目标 空间 中 正在 创建 的 副本 中 。 

对 于 复制 式 回 收 器 而 言 ， 黑 色 赋 值 器 意味 着 其 只 能 持 有 指向 目标 空间 的 指针 ， 一 旦 黑色 
赋值 器 持 有 了 来 源 空 间 中 的 引用 ， 由 于 它们 永远 不 会 被 回收 器 重新 扫描 到 ， 所 以 回收 过 程 将 
必然 出 现 错误 。 我 们 将 这 一 结论 称 为 黑色 赋值 器 目标 空间 不 变 式 〈tospace invariant), BIRR 
值 器 永远 都 只 能 操作 目标 空间 中 位 于 回收 波 面 之 前 的 对 象 。 同 理 ， 从 定义 上 讲 ， 灰 色 赋 值 器 
在 回收 周期 的 初始 阶段 将 仅 持 有 来 源 空 间 指针 ， 同 时 由 于 其 不 会 使 用 读 屏 障 来 转发 来 源 空间 
指针 ， 所 以 其 无 法 直接 通过 来 源 空 间 中 的 对 象 获取 其 在 目标 空间 中 的 对 应 地 址 (因为 复制 式 
回收 器 并 不 会 对 来 源 空间 对 象 中 的 指针 进行 转发 )。 我 们 将 这 一 结论 称 为 灰色 赋值 器 来 源 空 
间 不 变 式 (fromspace invaiant)。 当 然 ， 为 确保 回收 周期 能 够 结束 ， 所 有 赋值 器 最 终 必须 仅 
持 有 目标 空间 指针 ， 因 此 ， 对 于 允许 灰色 赋值 器 操作 来 源 空间 对 象 的 复制 式 回 收回 而 言 ， 其 
必须 确保 最 终 能 够 完成 所 有 赋值 器 根 的 转发 ， 从 而 将 所 有 赋值 器 都 翻转 到 目标 空间 。 另 外 ， 
赋值 器 在 来 源 空 间 所 执行 的 操作 也 必须 在 目标 空间 得 到 重 放 ， 和 否则 这 些 更 新 将 会 丢失 。 


17.1 主体 并 发 复制 : Baker 算法 


最 简单 的 一 种 并 发 复制 策略 可 能 是 为 所 有 赋值 器 线程 维护 目标 空间 不 变 式 ， 该 策略 可 以 
确保 赋值 器 不 会 访问 到 回收 器 尚未 复制 或 者 正在 复制 的 对 象 。 在 主体 并 发 复制 的 框架 下 ， 为 
满足 目标 空间 不 变 式 的 要 求 ， 回 收 器 必须 在 回收 周期 的 开始 阶段 (原子 化 地 ) 挂 起 所 有 赋值 
器 线程 ， 同 时 完成 其 根 的 采样 和 转发 ( 即 复制 根 的 目标 对 象 )。 该 阶段 完成 后 ， 已 经 被 着 为 
黑色 的 赋值 器 将 仅 包含 指向 目标 空间 的 (灰色 ) 指针 ， 而 这 些 指针 的 灰色 目标 对 象 依然 可 能 
包含 来 源 空间 指针 。Baker[1978] 的 黑色 赋值 器 读 屏障 最 初 是 为 增 量 回收 而 设计 的 ， 其 目的 
在 于 阻止 赋值 器 获取 来 源 空 间 指针 ，Halstead [1985] 进一步 将 其 扩展 到 并 发 复制 场景 。 读 屏 
障 可 以 确保 赋值 器 线程 不 会 穿 过 来 源 空 间 和 目标 空间 之 间 的 回收 波 面 ， 从 而 给 赋值 器 线程 造 
成 了 回收 过 程 已 经 结束 的 假象 。 

算法 17.1 描述 了 Baker 式 并 发 回收 算法 ， 它 是 算法 4.2 所 示 的 万 物 静止 式 复制 回收 算法 
的 改进 版 本 。 需 要 注意 的 是 ， 只 有 当 赋 值 器 从 目标 空间 灰色 对 象 中 加 载 指针 时 〈 即 所 加 载 指 
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针 的 目标 对 象 可 能 位 于 回收 波 面 之 前 ) 才 会 触发 读 屏障 ， 此 时 forwara 方 法 必须 确保 其 所 返 
回 的 引用 位 于 目标 空间 中 ， 如 果 必 要 ， 其 可 能 需要 对 来 源 空间 中 的 对 象 进行 复制 。 该 算法 中 
赋值 器 和 回收 器 之 间 的 同步 粒度 相对 较 粗 〈 对 象 级 别 )， 即 回收 器 需要 原子 化 地 扫描 灰色 对 
象 ， 而 赋值 器 读 屏障 也 需要 原子 化 地 转发 从 灰色 对 象 中 加 载 的 引用 。 两 个 atomic 代码 段 可 
以 确保 赋值 器 线程 永远 不 会 从 正在 扫描 (复制 ) 的 对 象 中 读 取 引 用 。 


算法 17.1 主体 并 发 复制 


1 shared worklist ¢ empty 


2 

3 collect(): 

‘ atomic 

5 flip() 

e for each fld in Roots 

7 Process(fld) 

8 loop 

9 atomic 

10 if isEmpty(worklist) 

u break /* 退出 循环 */ 
R ref + remove(worklist) 
3 scan(ref) 


5 flip(): 
16 fromspace, tospace ¢- tospace, fromspace 
17 free, top + tospace, tospace + extent 


3 scan(toRef): 
2% for each fld in Pointers(toRef) 
a Process(fld) 


process(fld): 
fromRef + x*fld 
if fromRef # null 
*fld + forward(fromRef) /* 将 其 更 新 为 目标 空间 的 引用 */ 


forward(fromRef): 
toRef + forwardingAddress(fromRef) 
if toRef = null /* 尚未 得 到 复制 (标记 ) */ 
toRef + copy(fromRef) 
return toRef 
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只 


copy(fromRef): 
toRef + free 
free + free + size(fromRef) 
if free > top 
error "Out of memory" 
move(fromRef, toRef) 
forwardingAddress(fromRef) 全 toRef /* 标记 */ 
add(worklist, toRef) 
return toRef 


ss 8 FF BB 


e 


atomic Read(src, i): 
ref + srcļi] 
if isGrey(src) 
ref + forward(ref) 
return ref 


&® 8 e& &@ FoR 


在 算法 17.1 F, Read 方法 的 atomic 前 组 将 确保 赋值 器 能 够 正确 地 判断 对 象 src 的 状态 
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( 即 是 否 为 灰色 ) 以 及 目标 对 象 的 状态 〈( 即 是 否 已 完成 转发 )， 同 时 也 能 确保 赋值 器 在 不 干涉 
process 方法 中 回收 器 复制 行为 的 前 提 下 自主 完成 来 源 空 间 中 目标 对 象 的 复制 。 此 时 Rea HR 
作 的 额外 开销 与 其 所 复制 对 象 的 大 小 成 正比 ， 如 果 更 加 仔细 地 设计 读 操 作 与 回收 器 之 间 的 同 
步 机 制 ， 算 法 将 达到 更 细 粒 度 的 同步 级 别 。 

获取 细 粒 度 同 步 方式 的 一 种 策略 是 在 工作 列表 中 记录 域 地 址 而 非 对 象 的 引用 ， 该 方案 的 
难点 在 于 如 何 将 灰色 域 与 黑色 域 进行 区 分 ， 即 赋值 器 如 何 才能 简单 高 效 地 判定 某 个 域 是 否 位 
于 回收 波 面 之 前 。 当 以 对 象 作 为 最 小 着 色 单 元 时 ， 回 收 器 可 以 通过 对 象 头 部 的 一 个 位 来 标记 
其 是 否 为 灰色 ， 而 如 果 将 域 作为 最 小 着 色 单 元 ,使 用 相同 的 标记 策略 将 会 引入 很 大 的 额外 存 
储 开销 。 通 过 观察 我 们 可 以 发 现 ， 在 Cheney 扫描 中 ， 指 针 scan 会 随 着 回收 器 逐个 扫描 每 个 
域 的 过 程 而 (原子 化 地 ) 向 前 递 进 ， 因 此 ， 位 于 指针 scan 之 后 的 域 均 为 黑色 ， 其 之 前 的 域 均 
为 灰色 。 我 们 可 以 基于 这 一 结果 设计 新 的 读 屏障 : 


atomic Read(src, i): 
ref + src[i] 
if ref # null & scan < &src[i] 床 src[i] 为 灰色 */ 
ref + forward(ref) 
return ref 


对 于 回收 器 如 何在 堆 中 以 域 为 单位 原子 化 地 推进 回收 波 面 ， 我 们 将 在 第 19 章 介 绍 具 体 
的 实现 细节 。 届 时 我 们 将 看 到 ， 该 技术 可 以 最 大 限度 地 减少 回收 顺 对 赋值 器 的 中 断 ， 这 对 于 
实时 系统 将 是 十 分 重要 的 。 


主体 并 发 、 主 体 复 制 回收 


主体 并 发 回收 算法 天 然 适 用 于 主体 复制 式 回 收 器 。 主 体 并 发 回收 器 必须 保守 地 对 待 每 个 
模糊 根 (ambiguous root)， 即 其 必须 钉 住所 有 被 模糊 根 引用 的 对 象 ， 但 是 ， 对 于 其 他 并 未 直 
接 被 模糊 根 引用 的 对 象 ， 回 收 器 便 可 自由 地 将 其 移动 。 因 此 ， 主 体 并 发 回收 器 显然 可 以 通过 
一 个 短暂 的 万 物 静止 阶段 来 扫描 线程 栈 和 寄存 器 ， 同 时 标记 OFE) 所 有 被 模糊 根 所 引用 
的 对 象 。 该 阶段 完成 后 ， 所 有 赋值 器 线程 将 全 为 黑色 ， 此 时 Baker 式 读 屏障 便 可 确保 赋值 器 
在 后 续 执 行 过 程 中 永远 不 会 触 达 尚未 完成 复制 的 对 象 。 

DeTreville [1990] 在 Modula-2+ 以 及 后 续 的 Modula-3[Cardelli 等 ，1992] 这 两 种 面向 系统 
的 语言 中 使 用 了 这 一 策略 ， 这 两 种 语言 的 编译 器 均 无 法 生成 准确 的 栈 映 射 (stack map) 信息 ， 
且 编 译 器 也 无 法 在 赋值 器 访问 堆 的 操作 中 插 人 显 式 屏障 ， 因 而 DeTreville 使 用 了 基于 虚拟 内 
存 页 保护 机 制 的 Appel 等 [1988] 读 屏 障 来 实现 赋值 器 与 回收 器 之 间 的 同步 。Detlefs [1990] 在 
C++ 中 也 使 用 了 相同 的 技术 ， 他 对 AT&T C++ 编译 器 进行 了 修改 ， 使 得 编译 器 可 以 自动 生 
成 堆 中 对 象 的 精确 指针 映射 信息 ， 从 而 允许 回收 器 对 未 被 模糊 根 直 接 引 用 的 对 象 进行 复制 。 

在 使 用 抢占 式 调度 策略 的 操作 系统 中 ， 回 收 器 将 很 难 实现 页 保护 的 自动 管理 ， 因 而 
Hosking [2006] 使 用 编译 器 生成 的 、 对 象 粒 度 的 读 屏 障 来 替代 粒度 较 粗 的 虚拟 内 存 保护 机 
制 。 由 于 读 屏障 仅 会 在 回收 过 程 的 复制 阶段 激活 ， 且 回收 器 在 万 物 静 止 阶段 会 扫描 模糊 根 并 
将 其 着 为 黑色 ， 所 以 在 读 屏 障 检测 来 源 对 象 是 否 为 灰色 的 快速 路 径 中 便 可 避免 昂贵 的 原子 操 
作 开 销 ， 此 时 只 需 保证 读 屏 障 在 真正 执行 转发 操作 时 的 原子 性 即 可 满足 要 求 。 


CO 由 于 黑色 赋值 器 不 可 能 持 有 白色 引用 ， 所 以 在 算法 17.1 中 ，Read 操作 的 src 参数 只 能 为 黑色 或 者 灰色 ， 此 
时 即使 去 掉 i£ 语句 的 原子 性 ， 传 递 给 forward 方 法 的 参数 ret 在 最 差 情 况 下 只 是 已 经 完成 了 转发 而 已 ， 
此 时 forward 方法 只 需 简 单 将 其 忽略 即 可 。 一 一 译 者 注 
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17.2 Brooks 间接 屏障 


维护 目标 空间 不 变 式 的 另 一 种 策略 是 允许 赋值 器 在 执行 过 程 中 忽略 回收 波 面 的 位 置 。 
Brooks[1984] 注意 到 ， 如 果 每 个 对 象 (不 论 其 在 来 源 空间 还 是 目标 空间 ) 都 存在 一 个 非 空转 
发 指针 (不 论 其 指向 来 源 空间 中 的 原始 对 象 ， 还 是 目标 空间 中 的 新 副本 )， 则 读 屏 障 中 判断 
sro 对 象 是 否 为 灰色 的 操作 便 可 省 略 。 来 源 空间 对 象 在 其 得 到 复制 之 前 ， 其 内 部 的 转发 指针 
域 将 指向 其 自身 ， 当 其 得 到 复制 后 ， 转 发 指针 域 便 会 自动 更 新 为 目标 空间 中 新 副本 的 地 址 。 
对 于 对 象 在 目标 空间 的 新 副本 ， 其 转发 指针 域 也 将 指向 其 自身 。 引 入 该 屏障 之 后 ， 赋 值 器 所 
有 的 堆 访问 操作 (包括 指针 、 非 指针 、 头 部 可 变 值 的 读 / 写 操作 ) 都 必须 无 条 件 地 对 间接 指 
针 域 进行 解 引 用 ， 如 果 目 标 空间 存在 该 对 象 的 新 副本 ， 则 赋值 器 将 能 够 正确 地 访问 到 新 对 
象 。Brooks 式 间接 屏障 如 算法 17.2 所 示 。 


算法 17.2 Brooks 式 间 接 屏 障 





atomic Read(src, i): 
src + forwardingAddress(src) 
return src[i] 


src + forwardingAddress(src) 
if isBlack(src) /* src 位 于 目标 空间 的 回收 波 面 之 后 */ 
ref + forward(ref) 


1 
2 
3 
4 
s atomic Write(src, i, ref): 
6 
7 
8 
9 src[i] + ref 


Brooks 间接 屏障 的 唯一 问题 在 于 读 屏 障 依然 可 能 访问 到 回收 波 面 之 前 尚未 完成 复制 的 
对 象 ， 但 间接 指针 域 的 存在 放宽 了 目标 空间 不 变 式 的 要 求 ， 此 时 赋值 器 不 仅 可 以 操作 灰色 对 
象 ， 而且 可 以 持 有 来 源 空间 引用 。 为 确保 回收 过 程 可 以 正常 结束 ，Brooks 使 用 Dijkstra 式 写 
屏障 来 拦截 赋值 器 将 来 源 空 间 指针 插入 到 回收 波 面 之 后 的 操作 ， 如 算法 17.2 所 示 。 

由 于 赋值 器 线程 可 以 操作 灰色 对 象 ， 所 以 一 旦 复制 过 程 完 成 ， 回 收 器 需要 再 次 扫描 赋值 
吉 线 程 的 栈 ， 并 将 其 中 所 有 尚未 得 到 转发 的 引用 替换 。 原 始 的 增 量 式 Brooks 回收 器 所 使 用 
的 是 另 一 种 策略 ， 即 回收 器 在 每 个 回收 增 量 结束 之 后 扫描 赋值 器 线程 的 栈 与 寄存 器 ， 并 在 恢 
复 其 执行 之 前 完成 所 有 待 转发 引用 的 重 定向 。 


17.3 BRR 


Baker 式 回收 器 需要 使 用 读 屏 障 来 维护 黑色 赋值 器 不 变 式 。 由 于 读 操作 通常 比 写 操作 更 
加 普遍 ， 所 以 读 屏障 的 开销 通常 会 比 写 屏障 昂贵 得 多 。 另 外 ， 读 屏障 通常 是 条 件 性 的 ， 即 在 
Read (src, i) 中 ， 读 屏障 必须 检测 src [i] 是 否 已 经 位 于 目标 空间 ， 如 果 结 果 为 否 ， 则 需 将 
其 复制 。Cheadle 等 [2004] 提出 了 一 种 方案 ， 该 方案 可 以 消除 赋值 器 在 访问 目标 空间 对 象 时 
的 屏障 开销 ， 并 在 Glasgow Haskell Compiler (GHC) 的 Baker 式 增 量 复制 回收 器 中 得 到 实 
际 应 用 。GHC 中 每 个 对 象 ( 闭 包 ) 的 第 一 个 字 都 指向 其 入 口 代码 (entry code)， 即 对 该 闭 包 
进行 求 值 的 代码 。 在 标准 的 闭 包 求 值 代码 之 外 ， 他 们 又 引入 了 一 种 新 的 求 值 代码 ， 后 者 会 在 
调用 标准 求 值 代码 之 前 完成 团 包 的 复制 ， 其 具体 执行 流程 如 下 : 在 非 回收 周期 内 ， 入 口 指针 
将 指向 不 进行 复制 的 标准 代码 ; 在 回收 启动 后 ， 如 果 某 一 对 象 被 复制 到 目标 空间 ， 则 回收 器 
会 将 新 副本 的 人 口 指针 修改 为 具有 自我 复制 能 力 的 求 值 代码 。 一 旦 赋值 器 访问 到 目标 空间 中 
的 新 对 象 并 对 其 进行 求 值 ， 则 求 值 代码 首先 会 将 该 对 象 的 子 节点 复制 到 目标 空间 ， 然 后 再 将 
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其 入口 指针 恢复 为 标准 版 本 ， 最 后 再 执行 标准 的 求 值 代码 。 该 策略 的 巧妙 之 处 在 于 ， 如 果 某 
一 闭 包 会 在 未 来 进行 求 值 ， 则 赋值 器 必然 要 无 条 件 执行 其 求 值 代 码 ， 而 读 屏 障 则 可 以 在 求 值 
代码 中 删除 。 该 策略 仅 会 产生 少量 的 重复 代码 开销 ，Cheadle 等 发 现 这 一 开销 仅 比 万 物 静 止 
式 复 制 回 收 器 高 25%。 他 们 还 将 这 一 技术 应 用 于 Jikes RVM Java 虚拟 机 中 ， 并 通过 支持 方法 
表 指 针 的 方式 来 实现 屏障 的 自我 删除 [Cheadle 等 ，2008]， 但 为 实现 这 一 目的 ， 对 象 的 大 多 
数 访 问 操 作 (包括 所 有 的 方法 调用 、 内 部 域 的 访问 ，static 变量 与 private 变量 除外 ) 都 必 
须 虚拟 化 ( virtualize)。 为 尽量 降低 这 一 策略 所 引入 的 开销 ， 他 们 还 使 用 了 一 种 较为 激进 的 
技术 ， 即 通过 运行 时 编译 来 将 代码 内 联 。 


17.4 副本 复制 


Brooks 间接 屏障 在 时 间 和 空间 两 方面 均 存在 额外 开销 : 其 不 仅 要 求 赋 值 器 的 每 次 堆 访 
问 操作 (包括 读 / 写 指针 / 非 指针 ) 都 对 间接 指针 解 引 用 ， 还 需要 在 每 个 对 象 头 部 预 留 一 个 
完整 的 字 来 保存 间接 指针 。 该 屏障 的 优势 在 于 ， 其 不 仅 放宽 了 Baker 式 读 屏障 在 加 载 来 源 
空间 引用 时 必须 复制 其 目标 对 象 的 限制 ， 而 且 可 以 确保 赋值 器 所 访问 到 的 (包括 读 和 写 ) 一 
定 是 对 象 在 目标 空间 中 的 新 副本 (如果 其 存在 的 话 )。 据 此 ， 我 们 可 以 得 出 一 个 重要 结论 : 
Brooks 间接 屏障 可 以 确保 堆 中 对 象 的 更 新 永远 不 会 丢失 ， 即 更 新 操作 要 么 发 生 在 对 象 得 到 
复制 之 前 ， 要 么 发 生 在 复制 完成 后 目标 空间 的 新 副本 上 9 。 

副本 复制 回收 器 [Nettles 等 ，1992 ; Nettles and O’Toole, 1993] 允许 赋值 器 继续 操作 来 
源 空间 中 对 象 的 原始 副本 ， 即 使 回收 器 正在 复制 该 对 象 ， 从 而 进一步 放宽 了 Brooks 间接 屏 
障 的 要 求 。 此 时 赋值 器 线程 将 遵守 来 源 空 间 不 变 式 ， 即 赋值 器 可 以 直接 更 新 来 源 空间 中 的 对 
象 ， 同 时 写 屏障 需要 记录 所 有 更 新 操作 ， 且 这 些 操作 必须 在 目标 空间 的 新 副本 中 得 到 重 放 。 
也 就 是 说 ， 副 本 复制 回收 器 允许 目标 空间 中 对 象 的 状态 落后 于 来 源 空 间 的 原始 对 象 ， 并 且 将 
这 一 状态 保持 到 回收 器 完成 复制 之 后 ， 但 是 在 回收 来 源 空间 之 前 ， 回 收 器 必须 确保 所 有 针对 
来 源 空间 对 象 的 操作 都 在 目标 空间 中 得 到 重 放 ， 且 所 有 赋值 器 根 都 已 得 到 转发 。 因 此 ， 回 收 
周期 的 结束 条 件 将 是 赋值 器 操作 日 志 为 空 ， 且 所 有 赋值 器 的 根 、 所 有 位 于 目标 空间 的 对 象 都 
已 得 到 扫描 。 

在 并 发 副本 复制 算法 中 ， 赋 值 器 和 回收 器 在 处 理 操 作 日 志和 更 新 赋值 器 根 时 都 需要 进行 
同步 。 在 处 理 操作 日 志 时 ， 使 用 线程 本 地 分 配 缓冲 区 、 工 作 窃 取 技 术 均 可 以 最 大 限度 地 降 
低 同步 开销 [Azagury 等 ，1999]。 回 收 器 必须 确保 在 回收 结束 之 前 所 有 对 象 与 其 副本 的 状态 
均 保 持 一 致 。 当 回收 器 对 某 个 已 经 扫描 过 的 副本 进行 修改 时 ， 其 必须 重新 扫描 该 副本 ， 进 
而 确保 由 该 修改 操作 所 产生 的 所 有 新 引用 都 在 目标 空间 中 得 到 体现 。 为 确保 回收 周期 能 够 结 
束 ， 回 收 器 需要 将 所 有 赋值 器 挂 起 并 扫描 器 根 。 当 所 有 对 象 已 完成 扫描 、 操 作 日 志 为 空 且 赋 
值 器 不 再 持 有 任何 未 复制 对 象 的 引用 时 ， 则 意味 着 回收 周期 的 结束 。 此 时 赋值 器 线程 全 部 处 
于 挂 起 状态 ， 回 收 器 便 可 安全 地 重 定向 其 根 ， 进 而 将 赋值 器 线程 全 部 翻转 到 目标 空间 。 

该 算法 所 产生 的 开销 仅仅 是 短暂 挂 起 赋值 器 以 便 对 其 根 进行 采样 ， 并 在 回收 结束 时 对 其 
进行 重 定向 : 回收 器 可 以 逐个 挂 起 每 个 线程 并 扫描 其 根 ， 而 在 回收 结束 时 ， 则 需要 在 一 个 短 
暂 的 万 物 静 止 阶段 中 将 所 有 线程 翻转 到 目标 空间 。 


O 尽管 如 此 ， 但 原子 化 地 复制 一 个 对 象 并 写 人 转发 地 址 ， 实 现 起 来 通常 并 不 简单 。 


O 依照 赋值 器 所 生成 的 日 志 。 一 一 译 者 注 
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副本 复制 算法 的 不 足 之 处 在 于 ， 写 屏障 必须 对 赋值 器 在 堆 中 的 每 一 次 更 新 操作 进行 记 
录 ， 不 论 其 所 操作 的 数据 是 否 为 指针 ， 这 一 开销 通常 会 比 传统 的 仅 拦 截 指 针 操 作 的 写 屏 障 高 
得 多 ， 此 时 操作 日 志 将 很 容易 成 为 整个 系统 的 瓶颈 。 但 是 对 于 不 允许 修改 对 象 的 函数 式 语 言 
(例如 Nettles 和 0O’Toole 的 ML )， 便 不 存在 这 一 性 能 问题 。 


17.5 ”多 版 本 复制 


Nettles 和 OToole[1993] 的 副本 复制 回收 器 依然 需要 使 用 万 物 静 止 的 方式 来 将 赋值 器 线 
程 同 步 迁 移 到 目标 空间 。 由 于 在 迁移 过 程 中 所 有 赋值 器 线程 都 无 法 继续 执行 ， 所 以 该 算法 无 
法 满足 无 锁 (lock-free) 要 求 。Halstead[1985] 对 Baker[1978] 的 算法 进行 了 多 处 理 器 优化 ， 
其 方案 为 每 个 处 理 器 在 堆 中 分 配 了 独立 的 空间 ， 即 每 个 处 理 器 都 拥有 专属 的 来 源 空间 与 目标 
空间 。 与 此 同时 ， 不 论处 理 器 在 扫描 过 程 中 所 发 现 的 存活 对 象 位 于 哪个 来 源 空 间 ， 其 都 有 义 
务 将 该 对 象 复 制 到 自身 目标 空间 中 。Halstead 使 用 锁 来 解决 多 处 理 器 在 复制 同一 对 象 时 可 能 
产生 的 竞争 问题 ， 并 且 不 允许 赋值 器 更 新 正在 进行 复制 的 对 象 ， 他 同时 还 需要 使 用 万 物 静止 
式 的 方式 来 将 所 有 处 理 器 翻转 到 目标 空间 ， 然 后 才能 将 来 源 空间 整体 回收 。 为 消除 回收 过 程 
中 的 全 局 停顿 ，Herlihy 和 Moss[1992] 将 回收 来 源 空 间 与 翻转 处 理 器 到 目标 空间 这 两 步 操作 
解 耦 。 他 们 将 每 个 处 理 器 所 对 应 的 空间 划分 为 一 个 目标 空间 以 及 多 个 〈 零 个 或 者 更 多 ) 来 源 
空间 。 在 复制 过 程 中 ， 同 一 对 象 的 来 源 空间 副本 可 以 存在 于 多 个 处 理 器 的 空间 中 ， 但 是 在 任 
意 时 刻 只 有 一 个 副本 能 够 成 为 当前 版 本 ， 而 其 他 副本 都 属于 已 废弃 版 本 。 

每 个 处 理 器 9 所 扮演 的 角色 将 在 赋值 器 和 回收 器 之 间 变换 。 当 其 执行 回收 器 的 相关 任 
务 时 会 在 局 部 变量 以 及 目标 空间 中 进行 扫描 ， 目 的 是 寻找 指向 来 源 空间 中 已 废弃 版 本 的 
指针 。 当 找到 此 类 指针 后 ， 回 收 器 会 定位 该 对 象 的 当前 版 本 。 如 果 当 前 版 本 位 于 来 源 空间 
中 ， 则 回收 器 会 将 其 复制 到 自身 目标 空间 并 令 其 成 为 当前 版 本 ,来 源 空 间 中 的 旧版 本 将 被 
废弃 。 

处 理 器 将 通过 上 述 方式 实现 对 象 从 来 源 空 间 到 目标 空间 的 复制 ， 同 时 完成 不 可 达 指 针 向 
目标 空间 的 重 定向 。 每 个 处 理 器 不 仅 要 在 自身 目标 空间 中 扫描 来 源 空间 指针 ， 而 且 有 义务 
将 其 所 发 现 的 所 有 当前 版 本 位 于 来 源 空 间 的 对 象 复 制 到 自身 目标 空间 中 (包括 位 于 其 他 处 理 
器 来 源 空间 中 的 对 象 )。 处 理 器 可 以 在 赋值 器 执行 过 程 中 的 任意 时 刻 执 行 来 源 空 间 和 目标 空 
间 的 翻转 (通常 是 当 目 标 空间 已 满 导 致 无 法 分 配 新 对 象 时 )， 但 不 得 在 扫描 过 程 中 进行 翻转 。 
在 某 一 处 理 器 执行 翻转 之 后 ， 只 有 当 其 他 处 理 器 都 不 再 持 有 其 来 源 空间 的 引用 时 ， 该 来 源 空 
间 才 能 整体 回收 。 

为 了 对 同一 对 象 的 不 同 版 本 进行 管理 ，Herlihy 和 Moss 需要 在 每 个 对 象 内 部 维护 一 个 额 
外 的 转发 指针 域 next ， 每 个 已 废弃 版 本 的 next 指针 将 指向 其 下 一 个 版 本 ， 从 而 形成 了 一 条 
从 最 老 版 本 到 最 新 版 本 的 指针 链 ， 链 的 末尾 便 是 对 象 的 当前 版 本 ， 其 next 指针 为 aall。 当 
处 理 器 将 某 一 对 象 复 制 到 自身 目标 空间 后 ， 其 需要 使 用 compareandswap 操作 原子 化 地 将 自 
身 目标 空间 中 新 版 本 的 地 址 写 入 指针 链 末 尾 对 象 的 next 指针 域 ， 从 而 令 其 成 为 当前 版 本 。 
因此 ， 赋 值 器 在 每 次 进行 堆 访 问 之 前 都 必须 沿 着 对 象 的 版 本 指针 链 追 滴 到 其 当前 版 本 。 另 
外 ， 为 了 在 确保 堆 中 更 新 操作 不 丢失 的 前 提 下 满足 无 锁 要 求 ， 赋 值 器 在 每 次 更 新 对 象 之 前 都 
必须 先 在 处 理 器 的 目标 空间 中 创建 一 个 新 版 本 ， 然 后 基于 这 一 新 版 本 进行 更 新 ， 最 后 使 用 


© Herlihy 和 Moss 使 用 进程 (process) 这 一 术语 ， 但 我 们 将 依照 惯例 使 用 “线程 ”这 一 概念 。 为 了 与 Halstead 
[1985] 的 理念 保持 一 致 ， 并 进一步 强调 “每 堆 区 域 ”这 一 概念 ,我 们 将 继续 使 用 处 理 器 (processor) 这 一 术语 。 
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CompareAndswap 操作 令 其 成 为 当前 版 本 ( 即 写 时 复制 )。 此 时 扫描 操作 与 复制 操作 之 间 将 无 
需 引 入 任何 全 局 性 的 同步 ， 同 时 也 可 确保 所 有 赋值 器 更 新 都 不 会 丢失 。 

只 有 当 所 有 执行 扫描 的 处 理 器 ( 即 扫描 者 , scanner) 都 不 再 持 有 某 一 来 源 空间 的 引用 时 ， 
其 所 对 应 的 处 理 器 ( 即 所 有 者 ，owner) 才能 将 该 来 源 空间 回收 。 对 于 所 有 者 而 言 ， 如 果 任 
意 一 个 扫描 者 都 没有 找到 指向 该 所 有 者 来 源 空间 的 指针 ， 则 称 扫描 的 结果 为 干净 (clean), 
否则 其 结果 为 脏 ( dirty) ; 每 个 处 理 器 均 完成 开始 扫描 到 结束 扫描 的 整个 过 程 ， 称 为 一 轮 
(round); 如 果 某 一 轮 扫 描 完 成 后 所 有 处 理 器 的 扫描 结果 都 为 干净 ， 且 期 间 没 有 处 理 右 执行 翻 
转 操作 ， 则 称 该 轮 扫描 的 结果 为 干净 。 在 某 一 处 理 器 执行 翻转 操作 之 后 ， 其 来 源 空间 必须 等 
到 下 一 轮 结 果 为 干净 的 扫描 结束 之 后 才能 得 到 回收 。 

每 个 所 有 者 都 会 使 用 两 个 原子 握手 位 ( handshake bit) 来 探测 扫描 者 的 启动 与 停止 ， 每 
个 位 均 是 由 一 个 处 理 器 写 而 由 男 一 个 处 理 器 读 。 在 初始 状态 下 ， 两 个 握手 位 的 值 相等 。 当 所 
有 者 需要 进行 翻转 时 ， 其 首先 创建 一 个 新 的 目标 空间 ， 然 后 将 老 的 目标 空间 标记 为 来 源 空 
间 ， 最 后 将 所 有 者 的 握手 位 反 转 ( invert)。 当 扫描 者 开始 扫描 某 一 所 有 者 的 空间 时 ， 其 先 读 
取 该 所 有 者 的 握手 位 ， 然 后 执行 扫描 ， 最 后 再 将 其 之 前 读 取 到 的 值 写 回 到 该 所 有 者 的 扫描 者 
握手 位 中 。 因 此 ， 如 果 在 扫描 过 程 中 所 有 者 的 握手 位 没有 发 生 反 转 ， 则 在 扫描 完成 后 两 个 握 
手 位 的 值 将 依然 相等 。 

每 个 所 有 者 必须 探测 其 他 处 理 器 扫描 过 程 的 开始 和 结束 ， 同 时 由 于 每 个 处 理 器 都 可 以 扮 
演 所 有 者 和 扫描 者 的 角色 ， 所 以 握手 位 的 实现 应 当 是 两 个 数组 : 所 有 者 数组 仅 包 含 所 有 者 握 
手 位 ， 并 以 所 有 者 的 处 理 器 编号 作为 索引 ; 扫描 者 数组 则 需要 通过 二 维 数 组 的 方式 实现 ， 数 
组 的 每 个 元 素 对 应 一 个 < 所 有 者 ， 扫 描 者 > 对 的 扫描 者 握手 位 。 由 于 一 次 扫描 会 涉及 多 个 所 
有 者 ， 所 以 扫描 者 在 扫描 之 前 必须 先 将 整个 所 有 者 数组 复制 到 本 地 ， 并 且 在 扫描 完成 后 将 其 
之 前 读 取 到 的 每 个 值 设置 到 扫描 者 数组 对 应 的 握手 位 中 。 如 果 某 一 所 有 者 发 现在 扫描 者 数组 
中 ， 所 有 扫描 者 所 设置 的 握手 位 均 与 自身 所 有 者 的 握手 位 相同 ， 则 意味 着 该 轮 扫 描 结束 。 在 
本 轮 扫描 结束 之 前 ,任意 所 有 者 均 不 得 执行 翻转 。 

为 检测 已 经 完成 的 一 轮 扫描 结果 是 否 为 干净 ， 处 理 器 之 间 将 共享 一 个 脏 标记 位 数组 ， 其 
中 的 每 个 位 对 应 一 个 处 理 器 。 任 意 所 有 者 在 执行 翻转 之 前 都 会 将 所 有 处 理 器 对 应 的 标记 位 设 
置 为 胜 。 与 此 同时 ， 如 果 扫 描 者 发 现 了 指向 其 他 处 理 器 来 源 空 间 的 指针 ， 该 处 理 器 的 脏 标 记 
也 会 得 到 设置 。 如 果 某 一 所 有 者 的 脏 标记 在 一 轮 扫 描 结 束 之 后 处 于 干净 状态 ， 则 称 该 所 有 者 
在 该 轮 扫 描 的 结果 为 干净 ， 其 便 可 以 回收 自身 的 来 源 空 间 ; 否则 其 将 简单 地 清理 自身 的 脏 标 
记 ， 并 发 起 一 轮 新 的 扫描 。 男 外 ， 如 果 将 脏 标记 与 来 源 空间 而 非 处 理 器 相关 联 ， 则 当 和 扫描 者 
发 现 位 于 某 一 来 源 空间 的 对 象 时 便 可 仅 为 其 设置 脏 标记 ， 进 而 允许 所 有 者 独立 回收 每 个 来 源 
空间 。 

Herlihy 和 Moss 证 明了 算法 的 安全 性 ， 但 是 他 们 并 未 针对 算法 的 具体 实现 进行 性 能 分 
析 。 确 保 算 法 安全 性 的 基础 在 于 ， 如 果 每 个 处 理 器 最 终 都 能 完成 扫描 ， 则 部 分 处 理 器 终究 可 
以 回收 来 源 空 间 。 在 最 差 情 况 下 ， 每 个 处 理 器 都 将 耗 尽 自身 空闲 内 存 ， 这 将 导致 翻转 操作 无 
法 进行 ， 此 时 所 有 处 理 器 都 必须 集中 精力 进行 扫描 ， 直 到 某 一 轮 扫描 的 结果 为 干净 为 止 。 当 
然 , 一 旦 这 种 资源 耗 尽 的 情况 发 生 ， 系 统 必然 会 被 整体 挂 起 。 


避免 写 时 复制 的 措施 
多 版 本 复制 算法 的 亮点 在 于 其 整个 处 理 过 程 完 全 无 锁 ， 但 其 缺陷 也 十 分 明显 : 在 每 次 
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堆 更 新 操作 时 均 需 要 创建 一 个 新 的 版 本 (尽管 在 非 一 致 内 存 结构 的 多 处 理 器 上 该 策略 可 能 
提升 局 部 性 )。 针 对 这 一 问题 ，Herlihy 和 Moss 提出 了 多 种 策略 来 避免 每 次 更 新 时 的 写 时 
复制 。 

o 使 用 compareandswap2 进行 原 地 更 新 。 该 策略 假定 处 理 器 支持 Compareandswap2 原 

语 ， 该 原 语 可 以 确保 处 理 器 的 原 地 更 新 操作 只 有 在 转发 指针 next (RAW null 的 情况 
下 才 会 执行 。 但 是 ，compareanaswap2 原 语 在 现代 处 理 器 上 并 未 得 到 广泛 实现 ， 事 务 
内 存 (transaction memory) 是 一 个 可 能 的 替代 策略 。 事 实 上 ， 该 方案 是 启发 Herlihy 
和 Moss 进一步 改进 措施 的 灵感 。 
所 有 者 原 地 更 新 。 该 策略 只 需 依 赖 compareandswap 原 语 ， 但 其 需要 在 对 象 头 部 引入 
数 个 额外 的 域 : 例如 对 于 对 象 a 而 言 ，sea(a) 表示 其 序列 号 模 2 的 值 ，inaex(a) 表 
示 待 更 新 槽 的 索引 号 ，value(a) 表示 待 写 人 的 值 。next (a) 代表 转发 指针 域 ， 该 域 
既 可 用 于 保存 转发 地 址 (可 以 为 aall)， 还 可 以 额外 持 有 一 个 序列 号 (其 实现 方式 是 : 
在 对 象 满足 一 定 对 齐 要 求 的 前 提 下 ， 可 以 在 转发 指针 的 低位 增加 额外 的 标签 值 )。 对 
象 序列 号 的 值 仅 可 能 为 0 或 者 1， 如果 seq(a)=next (a), ， 则 原 地 更 新 成 功 ， 和 否则 更 新 
将 被 忽略 。 

在 执行 写 和 人 之前， 处 理 器 必须 沿 着 对 象 的 版 本 链 找到 其 当前 版 本 〈 即 当 转 发 指针 域 为 
null 或 者 为 版 本 号 时 )。 如 果 当 前 版 本 位 于 本 地 目标 空间 中 ， 则 处 理 器 执行 算法 17.3 所 示 
AY Writesocsi 方 法。 该 方法 的 传人 参数 为 对 象 的 当前 版 本 a、 处 理 器 所 观察 到 的 转发 指针 域 
next (为 null 或 者 版 本 号 )、 待 修改 域 的 索引 号 i 以 及 即将 写 人 该 域 的 值 v。 该 方法 使 用 
CompareAndswap 原 语 来 为 next 域 原子 化 地 设置 新 版 本 号 ， 如 果 成 功 ， 则 处 理 器 通过 删除 屏 
障 来 扫描 即将 被 覆盖 的 指针 (目的 是 维护 “所 有 写 人 目标 空间 的 指针 都 会 得 到 扫描 ”这 一 不 
变 式 )， 然 后 再 执行 真正 的 写 和 操作。 如果 失败 ， 则 处 理 器 需要 重新 找到 其 当前 版 本 ,并 使 
用 完整 的 写 屏 障 来 尝试 对 其 进行 更 新 。 对 于 非 一 致 内 存 架 构 的 处 理 器 而 言 ， 处 理 器 更 新 本 地 
对 象 的 速度 更 快 ， 因 而 所 有 者 原 地 更 新 策略 尤其 适用 于 这 一 场景 。 


算法 17.3 Herlihy 和 Moss [1992] 的 所 有 者 原 地 更 新 写 屏障 


1 Writezocai(a, next, i, v): 

2 seq + (next + 1) % 2 

3 seq(a) + seq $ 
‘ index(a) + i 

5 value(a) + v 

6 if CompareAndSet(&next(a), next, seq) 

7 scan(a[i]) 

8 ali] ev 

9 else 

10 Write(a, i, v) 


如 果 待 更 新 对 象 并非 处于 本 地 目标 空间 中 ， 则 新 的 所 有 者 依然 需要 在 本 地 目标 空间 中 
创建 新 副本 ， 但 在 新 的 所 有 者 完成 复制 之 后 且 执 行 写 人 之 前 ， 新 的 所 有 者 必须 检查 next (al 
和 seq(a) 是 否 依然 相等 。 如 果 相 等 ， 则 所 有 者 将 首先 写 和 人 本 次 要 更 新 的 值 ， 然 后 通过 删除 
屏障 对 a 中 index 域 所 表示 的 槽 进行 扫描 ， 最 后 再 将 value (a) 中 的 值 写 入 到 其 在 当前 版 本 
所 对 应 的 槽 中 。 扫 描 者 在 将 对 象 迁移 到 自身 目标 空间 时 也 需 执行 相同 的 操作 。 这 一 操作 可 以 
确保 复制 过 程 中 所 有 发 生 在 原 有 版 本 中 的 写 操作 可 以 在 最 新 版 本 中 线性 化 地 执行 。 

。 基于 锁 的 原 地 更 新 。 最 后 一 种 策略 是 放弃 无 锁 保障 ， 并 在 更 新 对 象 时 使 用 compare- 
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Andswap 为 对 象 加 锁 。 与 其 他 策略 相同 ， 依 然 只 有 当前 版 本 的 所 有 者 才能 进行 原 地 更 
新 ， 其 更 新 过 程 如 下 : 
1 ) 使 用 compareandswap 原子 化 地 将 某 一 表示 上 锁 的 值 写 入 next 域 。 
2 ) 对 即将 被 覆盖 的 指针 进行 扫描 (如果 存 在 的 话 )。 
3 ) 执行 更 新 。 
4) 对 写 人 的 指针 进行 扫描 (如果 存在 的 话 )。 
5 ) 将 next 域 改 回 null, SCHL BI. 
由 于 只 有 对 象 的 所 有 者 可 以 进行 原 地 更 新 ， 所 以 这 一 操作 无 需 与 扫描 者 进行 同步 。 第 
2 ) 步 中 的 删除 屏障 可 以 确保 即将 被 覆盖 但 在 覆盖 之 前 可 能 被 其 他 处 理 器 读 取 的 指针 得 到 扫 
描 ; 第 4) 步 中 的 插入 屏障 可 以 确保 即使 该 对 象 刚 被 扫描 过 ， 新 插入 的 指针 也 不 会 被 错误 地 
忽略 。 


17.6 Sapphire 回收 器 


Halstead [1985], Herlihy 和 Moss [1992] 均 采 用 将 堆 划 分 为 多 个 对 称 区 域 ， 且 每 个 处 理 
器 负责 回收 一 个 区 域 的 策略 。 该 策略 的 问题 之 一 在 于 堆 结 构 必 须 与 多 处 理 器 拓扑 结构 紧 耦 
合 ， 实 际 应 用 中 的 堆 结构 以 及 线程 级 并 行 机 制 并 不 能 很 简单 地 适用 这 一 模型 。 除 此 之 外 ， 单 
个 处 理 器 也 可 能 成 为 算法 执行 过 程 中 的 瓶颈 : 每 个 处 理 器 都 负责 堆 中 一 块 巨 大 的 空间 或 者 多 
块 空间 ， 所 以 可 能 出 现 由 于 某 一 处 理 器 未 完成 扫描 而 导致 其 他 处 理 器 都 无 法 释放 自身 来 源 空 
间 的 情况 ， 进 而 导致 赋值 器 因 无 法 分 配 内 存 而 产生 停顿 。 我 们 可 以 考虑 让 剩余 空间 不 足 的 处 
理 器 从 其 他 处 理 器 中 窃取 空闲 内 存 ， 但 这 便 要 求 回收 器 能 够 在 运行 时 动态 地 重新 配置 每 个 处 
理 器 所 对 应 的 堆 空 间 ， 此 处 的 相关 问题 我 们 曾 在 第 14 章 讨论 过 。 本 节 我 们 所 要 介绍 的 是 非 
并 行 (non-parallel) 并 发 回收 器 ， 此 类 回收 器 可 以 将 回收 工作 非 对 称 地 指定 给 一 个 或 者 多 个 
专门 的 回收 线程 ， 且 其 可 以 通过 调整 回收 线程 优先 级 的 方式 来 实现 赋值 器 线程 与 回收 器 线程 
之 间 的 吞吐 量 平衡 。 

Sapphire 回收 器 [Hudson and Moss, 2001, 2003] 是 一 种 并 发 复制 式 回 收回， 该 回收 器 
主要 是 针对 运行 在 配备 中 小 规模 共享 内 存 的 多 处 理 器 之 上 ， 且 赋值 器 线程 数量 较 多 的 应 用 程 
序 而 设计 的 。 该 算法 对 17.4 节 所 介绍 的 并 发 副本 复制 算法 进行 了 改进 ， 其 允许 一 次 仅 对 一 
个 赋值 器 线程 进行 翻转 而 不 必 同 时 将 所 有 赋值 器 线程 挂 起 ， 并 一 次 性 地 将 它们 全 部 迁移 到 目 
标 空 间 ， 从 而 最 大 限度 地 减少 了 由 于 垃圾 回收 而 产生 的 停顿 。 当 赋值 器 同时 操作 来 源 空间 与 
目标 空间 时 ， 如 果 某 一 对 象 在 两 个 空间 中 都 存在 副本 ，Sapphire 回收 器 要 求 赋值 器 必须 对 两 
个 副本 都 进行 更 新 。Sapphire 回收 费 在 堆 中 单独 开辟 了 一 块 新 对 象 空间 ( newspace) 来 用 于 
对 象 的 分 配 ， 新 分 配 的 对 象 将 是 黑色 的 ， 它 们 必然 能 够 在 当前 回收 周期 中 得 到 保留 。 与 目标 
空间 不 同 ， 回 收 器 将 不 会 对 新 对 象 空间 进行 扫描 。 引 入 新 对 象 空间 之 后 ， 由 于 来 源 空 间 和 目 
标 空间 的 大 小 均 存 在 上 限 ， 所 以 有 助 于 回收 周期 的 结束 。 由 于 回收 器 会 把 新 分 配对 象 当 作 黑 
色 ( 即 位 于 回收 波 面 之 后 )， 以 避免 对 其 进行 扫描 ， 所 以 回收 器 必 须 引 入 写 屏 障 来 捕获 向 新 
分 配对 象 中 写 人 的 指针 ， 并 对 其 进行 扫描 以 及 转发 。 


17.6.1 回收 的 各 个 阶段 
Sapphire 回收 器 的 回收 过 程 主要 分 为 MarkCopy 和 Flip 两 大 阶段 (如 算法 17.4 所 示 )。 
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算法 17.4 Sapphire 回收 器 的 主要 回收 阶段 


1 MarkCopy: 

2 Mark /* 标记 可 达 对 象 */ 
3 Allocate /* 分 配 目标 空间 外 这 */ 
4 Copy /* 将 来 源 空 间 中 的 数据 复制 到 目标 空间 外 壳 中 */ 
5 

6 Mark: 

7 PreMark /* 激活 Mark 阶段 所 要 用 到 的 写 屏 障 */ 
8 RootMark /* 标记 并 扫描 全 局 变量 ， 最 终 将 其 着 为 黑色 */ 
9 HeapMark/StackMark /* 处 理 回收 器 标记 队列 */ 
10 

n Flip: 

12 PreFlip /* 激活 Flip 阶段 所 要 用 到 的 写 屏 障 */ 
13 HeapFlip /* 将 推 中 所 有 的 来 源 空间 指针 翻转 到 目标 空间 */ 
“ ThreadFlip /* 依次 翻转 每 个 线程 */ 
5 Reclaim /* 回收 来 源 空间 */ 
1. MarkCopy 


在 该 阶段 中 ， 回 收 器 会 标记 直接 从 全 局 变量 、 赋 值 器 线程 栈 、 寄 存 器 可 达 的 对 象 ， 并 将 
其 复制 到 目标 空间 。 在 该 阶段 的 处 理 过 程 中 ， 赋 值 器 的 读 操作 将 依然 访问 对 象 在 来 源 空 间 中 
的 原始 副本 ,但 其 写 操作 必须 同时 镜像 到 其 在 目标 空间 的 新 副本 中 。 为 避免 对 非 volatile 域 
的 读 操作 施加 读 屏障 ， 两 个 空间 中 的 副本 通过 编程 语言 的 内 存 模 型 来 保持 松散 一 致 性 (对 于 
Java 而 言 ， 可 以 参见 [Manson 等 ，2005; Gosling 等 ，2005]， 甚 同样 适用 于 C++ 未 来 的 内 存 
模型 [Boehm and Weiser，1988]2 )， 这 意味 着 对 每 个 副本 的 更 新 不 必 是 原子 化 的 或 者 同步 的 。 
例如 对 于 Java 应 用 程序 而 言 ， 确 保 两 副本 中 的 数据 在 应 用 程序 级 别 的 同步 点 ( application- 
level synchronisation point) 是 一 致 的 即 可 。 也 就 是 说 ， 在 程序 执行 到 下 一 个 同步 点 之 前 ， 赋 
值 器 线程 在 来 源 空间 副本 中 的 所 有 更 新 操作 都 将 在 目标 空间 的 副本 中 得 到 重 放 。 当 所 有 线程 
都 到 达 同 步 点 时 ， 来 源 空间 与 目标 空间 中 的 副本 将 彼此 一 致 8。 这 一 特征 对 于 Flip 阶段 将 是 
十 分 重要 的 ， 因 为 在 Flip 阶段 中 ， 赋 值 器 将 可 以 同时 访问 来 源 空 间 和 目标 空间 中 的 副本 。 

2. Flip 

在 该 阶段 中 ， 回 收回 会 对 全 局 变量 、 线 程 栈 、 寄 存 器 中 的 指针 进行 转发 ， 并 逐个 将 每 
个 线程 翻转 到 目标 空间 。 尚 未 翻转 到 目标 空间 的 赋值 器 线程 可 能 会 同时 持 有 两 个 空间 中 副 
本 的 引用 《甚至 可 能 是 同一 对 象 在 两 个 空间 中 的 副本 )。 对 于 本 章 前 面 所 介绍 的 各 种 并 发 复 
制式 回收 器 ， 它 们 要 么 使 用 读 屏 障 来 阻止 赋值 器 访问 来 源 空 间 ， 进 而 维护 目标 空间 不 变 式 
[Baker，1978]， 要 么 在 复制 的 过 程 中 维护 来 源 空间 不 变 式 并 一 次 性 完成 所 有 赋值 器 线程 的 
翻转 [Nettles and O"Toole，1993]。 不 使 用 读 屏 障 的 增 量 翻转 技术 意味 着 赋值 器 可 以 同时 访 
问 来 源 空 间 与 目标 空间 中 的 对 象 ， 此 时 便 需 要 确保 同一 对 象 的 两 个 副本 严格 同步 。 

对 于 同一 对 象 在 两 个 空间 中 的 两 个 副本 ， 它 们 的 引用 在 语言 级 别 应 当 是 相等 的 ， 因 而 这 
一 规则 会 影响 指针 相等 的 判断 逻辑 。 每 个 判断 指针 是 否 相等 的 操作 必须 执行 算法 17.5a 所 示 
的 屏障 。 需 要 注意 的 是 ， 只 要 两 个 参数 中 的 任意 一 个 为 aall， 编 译 器 即 可 将 判断 函数 简化 
为 p=q。 与 Brooks[1984] 的 屏障 类 似 ，Flip 阶段 也 必须 使 用 flipPointerEo MM (参见 算法 
17.5b) 来 比较 已 经 得 到 转发 的 指针 。 


O BICH 所 提供 的 内 存 模型 。 一 一 译 者 注 
SO 我 们 在 此 强调 ，Sapphire 回收 器 假定 赋值 器 线程 在 对 非 volatile 变量 进行 更 新 时 不 会 产生 竞争 。 
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算法 17.5 Sapphire 回收 器 中 的 指针 相等 判断 


(a) 快速 路 径 
1 pointerEQ(p, q): 
2 if p = q return true 
3 if q = null return false 
‘ if p = null return false 
5 return flipPointerEQ(p, q) /* RE Flip 阶段 才 会 调用 */ 


(b)Flip 阶段 的 判断 逻辑 


flipPointerEQ(p, q): 
pp + forward(p) 
qq + forward(q) 
return pp = qq 


2 u N = 


(c) 指针 转发 
1 forward(p): /* pp 为 非 空 指针 */ 
2 pp + toAddress(p)  /* 如 果 P 位 于 目标 空间 ， 则 pp 将 为 空 指针 */ 
3 if pp = null 
4 pp + p 
5 return pp 


e MarkCopy: Mark. Mark 阶段 会 对 来 源 空 间 中 每 个 从 根 (包括 全 局 变量 、 线 程 栈 / 寄 
存 器 ) 可 达 的 对 象 进 行 标记 。 在 Sapphire 回收 算法 中 ， 回 收 器 使 用 工作 队列 来 处 理 
所 有 的 标记 任务 ， 而 赋值 器 写 屏障 则 负责 将 回收 相关 指针 压 人 标记 队列 : 当 赋 值 器 
将 某 个 对 象 的 引用 写 人 全 局 变量 或 者 堆 时 ， 如 果 该 对 象 位 于 来 源 空间 且 尚 未 得 到 标 
记 ， 赋 值 器 便 需 将 其 压 人 标记 队列 。 回 收 器 首先 扫描 全 局 变量 ， 如 果 其 发 现 指 向 来 
源 空间 中 未 标记 对 象 的 引用 ， 则 其 需要 将 该 引用 加 入 工作 队列 。 然 后 回收 器 将 对 标 
记 队 列 中 的 引用 进行 标记 和 扫描 : 当 其 将 对 象 p 的 引用 从 标记 队列 中 移出 时 ， 如 果 p 
尚未 得 到 标记 ， 则 对 其 进行 标记 ， 同 时 扫描 其 指针 域 ， 并 将 其 所 引用 的 、 位 于 来 源 
空间 的 未 标记 对 象 压 人 标记 队列 。 
当 回 收 器 发 现 标记 队列 为 空 时 ， 它 会 逐次 挂 起 每 个 赋值 器 线程 ， 扫 描 其 栈 、 寄 存 器 ， 并 
将 新 发 现 的 、 指 向 来 源 空间 未 标记 对 象 的 引用 压 人 标记 队列 。 如 果 回 收 器 完成 所 有 赋值 器 
线程 的 扫描 之 后 标记 队列 依然 为 室 ， 则 意味 着 标记 结束 ， 否 则 回收 器 必须 继续 进行 标记 与 扫 
描 。 由 于 写 屏 障 能 够 确保 回收 波 面 不 会 后 退 ， 且 新 分 配 的 对 象 均 为 黑色 ， 所 以 回收 周期 必然 
可 以 结束 ， 来 源 空 间 中 的 所 有 可 达 对 象 最 终 必然 都 将 得 到 标记 与 扫描 。 
Mark 阶段 分 为 3 个 子 阶 段 。PreMark 阶段 会 激活 标记 阶段 所 需 的 写 屏障 Writes, WMI 
法 17.6a 所 示 。 赋 值 器 并 不 直接 参与 标记 工作 ， 其 只 需要 将 未 标记 对 象 的 引用 压 人 标记 队列 
以 便 回收 器 进行 处 理 。 来 源 空间 中 的 未 标记 对 象 为 隐 式 白色 对 象 ， 标 记 队 列 中 的 对 象 为 隐 式 
灰色 对 象 ， 这 一 信息 可 以 通过 一 个 表示 对 象 是 否 已 经 人 队 的 位 来 进行 编码 ， 该 位 同时 也 可 以 
避免 将 同一 对 象 多 次 人 队 。 每 个 赋值 器 线程 都 拥有 本 地 标记 队列 ， 因 而 人 队 操 作 通 常 无 需 任 
何 同 步 操作 。 当 回收 器 扫描 赋值 器 线程 栈 时 ， 其 会 将 赋值 器 线程 标记 队列 中 的 元 素 全 部 转移 
到 自身 标记 队列 中 。 
在 RootMark 阶段 ， 回 收 将 扫描 全 局 变量 并 使 用 已 经 激活 的 writewm 屏障 将 它们 所 引用 
的 、 尚 未 标记 的 对 象 添加 到 标记 队列 中 ， 从 而 将 全 局 变量 全 部 着 为 黑色 。 新 分 配对 象 也 被 视 
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为 黑色 ， 因 而 在 其 中 执行 写 操作 (包括 初始 化 过 程 中 的 写 操 作 ) 也 会 触发 writews 屏障 。 此 
时 赋值 器 栈 以 及 寄存 器 依然 为 灰色 。 

最 后 ， 回 收 器 将 在 HeapMark/StackMark 阶段 处 理 自 身 标 记 队 列 、 赋 值 器 线程 栈 ， 以 及 
一 个 额外 的 显 式 灰色 对 象 集 合 。 对 于 标记 队列 中 的 每 个 引用 ， 回 收 器 首先 判断 其 是 否 已 被 标 
记 ， 如 果 没 有 ， 则 对 其 进行 标记 ， 并 将 其 添加 到 显 式 灰色 对 象 集合 ， 以 便 进 一 步 扫描 (已 标 
记过 的 对 象 将 被 忽略 )。 回 收 右 将 对 显 式 灰 色 集 合 中 的 每 个 对 象 进行 扫描 ， 并 使 用 Writer 
屏障 将 其 所 引用 的 、 尚 未 标记 的 对 象 添 加 到 标记 队列 中 ， 此 时 该 对 象 将 变 成 黑色 ， 即 已 得 到 
标记 但 并 不 在 显 式 灰色 对 象 集合 中 的 对 象 为 黑色 。 回 收回 会 持续 进行 迭代 ， 直 到 标记 栈 与 显 
式 灰色 集 合 均 变 空 为 止 。( 同 一 对 象 可 能 会 多 次 进入 标记 队列 ， 但 不 论 如 何 ， 其 最 终 都 将 得 
到 标记 ， 并 且 不 会 再 被 赋值 器 压 人 标记 队列 。) 

当 标 记 队 列 以 及 灰色 对 象 集合 变 空 时 ， 回 收 器 会 将 某 个 赋值 器 线程 短暂 挂 起 在 安全 回收 
点 〈 该 点 不 可 能 位 于 写 屏 障 的 执行 过 程 中 )， 然 后 使 用 writewe* 方 法 扫描 其 栈 、 寄 存 器 并 将 
其 着 为 黑色 。 如 果 回 收 器 在 扫描 每 个 线程 的 栈 /寄存 器 时 均 未 发 现 白色 指针 ( 即 未 将 任何 对 
象 压 入 标记 队列 )， 且 标记 队列 与 灰色 对 象 集合 缘 为 空 ， 则 意味 着 全 局 变量 、 线 程 栈 / 寄存 
器 、 新 分 配对 象 中 不 可 能 存在 白色 指针 ， 即 它们 均 为 黑色 。 正 是 由 于 写 屏 障 可 以 确保 全 局 变 
量 以 及 新 分 配对 象 均 为 黑色 ， 回 收 器 才能 确保 该 阶段 能 够 结束 。 写 屏障 能 够 阻止 赋值 器 向 堆 
中 写 入 白色 引用 ， 因 此 赋值 器 获取 白色 指针 的 唯一 方式 便 是 从 白色 或 灰色 可 达 对 象 中 加 载 引 
用 。 当 回收 器 完成 所 有 赋值 器 线程 的 扫描 之 后 ， 堆 中 将 不 存在 任何 灰色 对 象 ， 此 时 赋值 器 将 
只 可 能 从 白色 对 象 中 加 载 白色 引用 。 但 是 由 于 赋值 器 在 得 到 扫描 之 后 便 不 可 能 持 有 任何 白色 
引用 ， 因 此 在 扫描 完成 之 后 ， 赋 值 器 便 不 可 能 再 访问 到 白色 对 象 。 这 一 规则 适用 于 所 有 赋值 
器 ， 因 而 所 有 赋值 器 线程 必然 都 为 黑色 。 

需要 注意 的 是 ,在 Mark 阶段 ， 只 有 那些 在 得 到 扫描 之 后 继续 执行 的 赋值 器 线程 才 需 要 
重新 扫描 ， 类 似 地 ， 只 有 那些 在 得 到 扫描 之 后 依然 活动 的 栈 才 需 要 重新 扫描 。 

该 阶段 完成 后 ， 来 源 空 间 中 的 所 有 白色 对 象 均 为 不 可 达 对 象 。 


算法 17.6 Sapphire 回收 器 中 的 写 屏 障 
(a)Mark 阶段 的 写 屏障 


1 Writewark(P， i, q): 
2 pli] + qa 


3 if isFromSpace(q) & not marked(q) /* qq 为 白色 */ 
4 enqueue(q) /* 回收 器 将 在 稍 后 对 其 进行 标记 */ 
(b)Copy 阶段 的 写 屏 障 

1 Writecopy(p, i; q): 

2 pli] + a $ 
3 pp + toAddress(p) $ 
+ S28 oo # mall /* P 位 于 来 源 空间 */ 
s q + forward(q) /* 若 q 非 指针 ， 则 可 省 略 这 一 步 */ 
6 pp[i] + q $ 


(c)Flip 阶段 的 写 屏障 


1 Writerlip(P, i, q): 
2 q + forward(q) /* 若 q 非 指针 ， 则 可 省 略 这 一 步 */ 
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pli] = q 

pp + toAddress(p) 

if pp # null /* pp 位 于 来 源 空间 */ 
ppli] + a 
return 

pp 人 fromAddress(p) 

if pp # null /* P 位 于 目标 空间 */ 
ppli] 全 a 
return 


MarkCopy : Allocate。 当 标记 阶段 确定 来 源 空间 中 的 可 达 对 象 集 合 之 后 ， 回 收 器 将 
为 来 源 空间 中 的 每 个 已 标记 对 象 创建 空 的 目标 空间 外 这 (shell) 。 回 收 器 不 仅 会 在 来 
源 空间 对 象 中 设置 指向 其 目标 空间 副本 的 转发 指针 ， 而 且 会 通过 一 张 哈 硕 表 反 向 记 
录 每 个 目标 空间 副本 所 对 应 的 来 源 空 间 对 象 ， 其 目的 在 于 : 当 某 个 赋值 器 线程 翻转 
到 目标 空间 后 ， 其 他 尚未 完成 翻转 的 线程 依然 会 访问 来 源 空 间 ， 因 此 该 线程 对 目标 
空间 中 对 象 的 操作 依然 需要 同步 到 来 源 空 间 。 

MarkCopy: Copy。 当 回收 器 为 来 源 空 间 中 的 每 个 已 标记 对 象 都 创建 了 目标 空间 副本 
且 设置 了 转发 指针 之 后 ， 其 便 可 以 开始 将 来 源 空间 中 对 象 的 数据 复制 到 其 所 对 应 的 
目标 空间 外 壳 中 。 该 阶段 需要 遵从 “目标 空间 中 的 对 象 只 能 持 有 目标 空间 中 对 象 的 引 
用 ”这 一 不 变 式 ， 为 达到 这 一 目的 ， 赋 值 器 将 使 用 writen, 这 一 新 的 写 屏 障 ， 该 屏障 
不 仅 可 以 确保 一 次 写 操 作 可 以 同时 更 新 来 源 空 间 与 目标 空间 中 的 两 个 副本 ， 还 可 以 
确保 写 人 目标 空间 的 指针 所 引用 的 对 象 必 然 位 于 目标 空间 ， 如 算法 17.6b 所 示 。 由 于 
所 有 赋值 器 线程 都 尚未 翻转 ， 即 它们 依然 工作 在 来 源 空 间 中 ， 所 以 此 时 写 屏 障 的 作 
用 仅仅 是 将 来 源 空 间 中 对 象 的 变更 同步 到 其 在 目标 空间 的 副本 中 。 此 处 的 toaddress 
方法 与 其 他 复制 策略 中 的 forwardingaddress 方法 含义 相同 ， 即 如 果 该 方法 的 传人 参 
数 本 身 就 是 指向 目标 空间 的 指针 ， 则 其 返回 值 将 为 aull ; 而 此 处 的 forwora 方 法 则 
是 将 把 来 源 空间 指针 转化 为 其 所 对 应 的 目标 空间 指针 ， 如 果 传 人 参数 本 身 即 为 指向 
目标 空间 的 指针 ， 则 简单 地 将 该 值 返回 。 该 屏障 中 的 内 存 访问 操作 必须 以 代码 所 指 
定 的 顺序 执行 ( 带 $ 标记 的 代码 )， 否 则 该 屏障 将 无 法 正确 实现 同步 ， 因 为 Sapphire 
假定 赋值 器 之 间 不 会 针对 非 volatile 变量 产生 竞争 。 

Copy : Copy 阶段 由 以 下 几 个 子 阶段 构成 : 子 阶 段 PreCopy 将 设置 Copy 阶段 所 要 
用 到 的 写 屏障 writecp,， 如 算法 17.6b 所 示 ; 子 阶段 Copy 会 将 来 源 空间 中 的 每 个 黑 
色 (已 标记 且 已 完成 扫描 ) 对 象 复制 到 其 在 目标 空间 的 外 壳 中 。 赋 值 器 可 能 会 在 回收 
器 复制 对 象 的 同时 对 其 进行 修改 ， 为 此 ， 回 收 器 需要 使 用 算法 17.7 所 示 的 无 锁 同 步 
方式 来 解决 可 能 产生 的 竞争 。 该 算法 首先 尝试 不 借助 同步 原 语 将 地 址 p 的 值 复制 到 
地 址 gs， 并 在 发 现 p 的 值 发 生变 化 时 进行 有 限 次 数 的 重 试 ， 如 果 重 试 到 达 上 限 ， 则 使 
用 LoadLinked/storeconditionally ( LL/SC) 原 语 来 协助 完成 复制 (由 于 在 复制 过 程 
中 ， 赋 值 器 尚未 翻转 到 目标 空间 ， 因 而 从 LL 到 SC 的 一 段 时 间 内 ， 如 果 a 发生 了 变 
化 ， 必 然 是 赋值 器 在 对 p 进行 更 新 时 通过 写 屏 障 更 新 了 q， 此 时 即使 SC 操作 失败 ，p 
和 a 将 依然 保持 一 致 )。 需 要 再 次 强调 的 是 ,程序 必须 以 代码 所 指明 的 顺序 ( 带 $ 标 
记 的 代码 ) 来 访问 内 存 。 另 外 ， 需 要 注意 的 是 ， 算 法 假定 赋值 器 对 来 源 空间 中 地 址 
p 的 更 新 (进而 也 更 新 a) 是 导致 storeconditionally 操作 失败 的 唯一 原因 ， 但 不 幸 
的 是 ， 并 发 硬件 通常 无 法 提供 这 一 保障 ( 即 SC 操作 可 能 产生 假 性 失败 )， 因 此 仅 依 
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iff LoadLinked/StoreConditionally 原 语 便 不 足以 确保 程序 的 正确 性 S。 在 实际 应 用 中 ， 
对 copyWord 方法 必须 进行 更 加 保守 的 改进 ， 即 copywordsafe 方法 ， 但 是 如 果 赋 值 器 
在 LL 和 SC 操作 之 间 不 断 更 新 地 址 p 的 值 ， 则 回收 器 便 无 法 正常 向 前 执行 。 


算法 17.7 Sapphire 回收 器 的 复制 过 程 


copyWord(p, q): 


1 

2 for i + 1 to MAX_RETRY do 

3 toValue + *p $ 
4 toValue + forward(toValue) /* # tovalue 非 指针 ， 则 可 省 略 这 一 步 */ 
5 *q + toValue $ 
6 fromValue + xp $ 
7 if toValue = fromValue 

8 return 

9 LoadLinked(q) $ 
0 toValue + *p $ 
u toValue + forward(toValue) /* # toValue 非 指针 ， 则 可 省 略 这 一 步 */ 
12 StoreConditionally(q, toValue) /* 假设 不 出 现 假 性 失败 */ $ 
13 

u copyWordSafe(p, q): 

15 for asu /* 与 copyWord 一致 */ 
16 loop 

17 LoadLinked(q) $ 
18 toValue + xp $ 
19 toValue + forward(toValue) /* # toValue 非 指 针 ， 则 可 省 略 这 一 步 */ 
20 if StoreConditionally(q, toValue) 

a return /* SC 操作 成 功 */ 


© Flip: 该 阶段 同样 也 分 为 数 个 子 阶 段 。 刚 刚 进 入 该 阶段 时 ， 尚 未 翻转 的 赋值 器 可 以 同 
时 操作 来 源 空间 与 目标 空间 中 的 数据 ， 因 而 PreFlip 子 阶 段 需要 设置 Flip 阶段 的 写 屏 
障 Writer, 以 应 对 这 一 情况 ( 见 算 法 17.6c)。HeapFlip 子 阶段 会 将 全 局 变量 以 及 新 
生 空 间 中 所 有 来 源 空间 指针 翻转 到 目标 空间 。writerse 可 以 确保 只 有 目标 空间 指针 才 
能 写 人 全 局 变量 或 者 新 生 空间 ， 从 而 保证 了 回收 工作 不 会 出 现 倒退 。ThreadFlip 子 阶 
段 会 依次 翻转 每 个 赋值 器 线程 ， 即 : 将 线程 挂 起 并 对 其 栈 、 寄 存 器 中 的 来 源 空间 指针 
进行 翻转 ， 然 后 再 恢复 线程 的 执行 。 在 该 子 阶段 中 ， 所 有 赋值 器 依然 需要 对 来 源 空 
间 和 目标 空间 中 的 副本 同时 进行 更 新 ， 因 此 已 经 翻转 的 线程 需要 能 够 找到 目标 空间 
任意 对 象 在 来 源 空间 中 的 对 应 副本 ( 即 用 与 toaddress 方法 所 对 应 的 fromaddress Fy 
法 )。 最 后 ， 一 且 所 有 赋值 器 都 完成 翻转 ， 且 所 有 赋值 器 线程 都 将 不 再 执行 Writers 
写 屏 障 ，Reclaim 子 阶 段 便 可 将 来 源 空间 整体 回收 ， 同 时 将 记录 目标 空间 到 来 源 空间 
对 应 关系 的 反 向 映射 表 一 并 回收 。 

由 于 尚未 完成 翻转 的 线程 依然 可 能 同时 访问 来 源 空 间 和 目标 空间 中 同一 对 象 的 副本 ， 所 

以 判断 指针 是 否 相等 的 操作 需要 对 目标 空间 指针 进行 比较 ( 见 算法 17.50). 


17.6.2 ” 相 邻 阶段 的 合并 


Sapphire 回收 器 允许 将 某 些 阶段 合并 。 例 如 RootMark, HeapMark/StackMark, Allocate, 
Copy 可 以 合并 成 一 个 单独 的 Replicate 阶段 ， 同 时 将 writers. 和 writecoy 合并 成 一 个 单独 的 
Replicate 写 屏 障 : 当 赋 值 器 将 来 源 空间 指针 写 人 目标 空间 时 ， 写 屏障 会 将 来 源 空 间 指针 添加 


© 感谢 Laurence Hellyer 指出 这 一 问题 。 
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制 完成 后 修正 该 域 。 


17.6.3 Volatile 域 


Java 要 求 每 次 对 volatile 域 的 访问 都 必须 真正 访问 物理 内 存 ， 且 多 个 处 理 器 之 间 的 并 
发 访问 必须 表现 出 顺序 一 致 性 。 因 此 ， 不 仅 赋 值 器 在 访问 volatile 域 时 需要 执行 较 重 的 同 
步 逻辑 ， 回 收 器 在 对 其 进行 复制 时 也 需要 确保 其 两 个 副本 保持 适当 的 一 致 性 。Hudson 和 
Moss 提出 了 多 种 方案 来 解决 这 一 问题 ， 每 种 方案 均 会 给 volatile 域 的 访问 引入 显著 的 额外 
开销 。 

综 上 所 述 ，Sapphire 回收 器 对 以 往 的 各 种 并 发 复制 算法 进行 了 扩展 ， 并 与 副本 复制 算法 
具有 较 多 的 共同 点 。 该 算法 不 仅 允 许 将 赋值 器 线程 逐个 从 来 源 空 间 翻 转 到 目标 空间 (无 需 将 
其 全 部 挂 起 )， 而 且 最 大 限度 地 减 小 了 赋值 器 线程 的 停顿 时 间 ， 同 时 在 访问 非 volatile 域 时 
还 可 以 省 去 读 屏 障 开销 。 当 同一 对 象 在 来 源 空 间 和 目标 空间 中 都 存在 副本 时 ， 赋 值 器 对 两 个 
副本 都 进行 更 新 ， 从 而 确保 了 两 副本 之 间 的 一 致 性 。 


17.7 并 发 整理 算法 


我 们 曾 在 第 3 章 介绍 过 整理 式 回 收 算法 ， 此 类 算法 的 执行 可 以 划分 为 两 个 阶段 ， 即 标记 
阶段 与 整理 阶段 。 我 们 注意 到 ， 在 整理 式 回收 算法 中 ， 确 定 可 达 对 象 集合 的 追踪 过 程 与 整 
理 过 程 相 对 独立 ， 因 而 整理 算法 在 对 象 的 重 排列 顺序 方面 具有 更 高 的 自由 度 ， 也 就 是 说 ， 复 
制式 回收 只 能 以 追踪 过 程 的 遍历 顺序 进行 复制 ， 而 整理 式 回收 则 可 按照 地 址 顺序 进行 滑动 
整理 。 


17.7.1 Compressor 回收 器 


我 们 曾 在 3.4 节 以 及 14.8 节 提 到 过 Compressor 回收 器 [Kermany and Petrank, 2006], 
该 回收 器 正 是 充分 利用 了 整理 式 回收 将 标记 过 程 与 复制 过 程 分 离 的 更 大 自由 性 ， 从 而 实现 了 
并 发 整理 。 

回顾 14.8 节 可 知 ，Compressor 回收 器 首先 计算 出 一 个 辅助 的 首 对 象 表 (first-object 
table)， 该 表 所 记录 的 内 容 是 未 来 将 会 复制 到 某 一 目标 空间 页 的 第 一 个 来 源 空 间 对 象 。 然 后 ， 
并 行 整理 线程 将 通过 竞争 的 方式 获取 尚未 映射 物理 内 存 的 目标 空间 虚拟 内 存 页 ， 为 其 映射 物 
理 内 存 页 并 将 来 源 空 间 中 的 对 象 复制 到 该 页 ， 同 时 还 需要 将 该 页 中 的 所 有 指针 域 重 定向 到 目 
标 空间 的 对 应 地 址 。 当 某 一 来 源 空间 页 中 所 有 存活 对 象 都 得 到 复制 之 后 ， 回 收 器 会 立即 解除 
该 页 的 内 存 映 射 (unmap )。 

为 支持 并 发 整理 ，Compressor 回收 器 使 用 与 Appel 等 [1988] 类 似 的 虚拟 内 存 页 保护 
策略 ， 后 者 利用 虚拟 内 存 页 保护 策略 来 扮演 读 屏障 的 角色 ， 从 而 阻止 赋值 器 访问 包含 未 复 
制 对 象 或 者 未 转发 指针 的 页 ; Ossia 等 [2004] 也 使 用 页 保护 策略 来 对 包含 已 整理 对 象 的 页 
中 的 指针 进行 并 发 转发 。Compressor 回收 器 的 整理 与 转发 均 依赖 页 保护 策略 。 在 回收 开始 
时 ，Compressor 回收 器 首先 禁止 赋值 器 对 目标 空间 进行 读 写 访问 〈 即 不 为 目标 空间 中 的 页 映 


射 物理 内 存 页 ); 其 次 ， 计 算 首 对 象 表 并 对 赋值 器 线程 并 发 访问 的 目标 空间 页 进行 保护 ; 然 


O 在 后 文 我 们 将 看 到 ， 这 些 目 标 空间 页 是 那些 存活 对 象 占 比 较 高 的 内 存 页 ， 回 收 器 不 必 对 其 进行 整理 ， 但 须 对 
其 中 的 引用 进行 转发 。 一 一 译 者 注 
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Ja, Compressor 回收 器 短暂 地 挂 起 所 有 赋值 器 线程 并 将 其 根 重 定向 到 目标 空间 ; 最 后 再 恢 
复 赋值 器 线程 的 执行 。 该 阶段 完成 后 ， 目 标 空间 尚 不 存在 任何 已 复制 对 象 ， 但 在 此 时 , 一旦 
赋值 器 访问 某 一 受 保护 的 目标 空间 页 ， 则 将 触发 陷阱 ， 陷 阱 处 理 函数 会 处 理 与 该 页 相关 的 整 
理工 作 ， 即 : 为 虚拟 内 存 页 映射 物理 内 存 、 从 来 源 空 间 复制 对 象 (此 时 赋值 器 线程 将 扮演 整 
理 线 程 的 角色 ， 并 承担 了 增 量 整理 的 工作 )、 对 新 复制 对 象 中 的 引用 进行 转发 ， 这 些 工作 完 
成 后 ， 赋 值 器 线程 才能 恢复 执行 并 访问 该 页 。 需 要 注意 的 是 ， 在 这 一 过 程 中 ， 赋 值 器 线程 仅 
完成 了 其 所 访问 页 中 数据 的 复制 ， 因 而 对 于 横 跨 当前 页 与 上 一 页 的 对 象 ， 其 前 半 部 分 将 不 会 
得 到 复制 ， 类 似 地 ， 对 于 横 跨 当前 页 与 下 一 页 的 对 象 ， 其 后 半 部 分 也 不 会 得 到 复制 。 为 支持 
并 发 整理 ， 对 于 “不 允许 ”赋值 器 线程 访问 的 目标 空间 页 ， 回 收 器 的 整理 线程 应 当 能 够 正常 
访问 ， 因 而 整理 线程 在 填充 某 个 目标 空间 页 之 前 必须 使 用 二 次 映射 ( double-map) 策略 来 映 
射 物理 内 存 页 : 不 仅 要 将 原本 的 目标 空间 虚拟 内 存 页 映射 到 物理 内 存 (但 依然 保留 页 保护 策 
略 )， 还 要 将 某 一 尚未 映射 的 、 整 理 线程 “私有 ”的 虚拟 内 存 页 映射 到 相同 的 物理 内 存 〈 可 
参见 11.10 节 )。 一旦 整理 线程 完成 该 页 的 整理 ， 便 可 解除 目标 空间 虚拟 内 存 页 的 保护 策略 ， 
同时 解除 该 过 程 所 用 到 的 “私有 ”映射 。 

从 本 质 上 讲 ，Compressor 回收 器 遵从 标准 的 三 色 不 变 式 ， 即 来 源 空间 页 为 白色 、 已 被 
保护 的 目标 空间 页 为 灰色 、 已 解除 保护 的 目标 空间 页 为 黑色 。 在 初始 状态 下 ， 当 回收 器 依照 
目标 空间 地 址 计算 首 对 象 表 时 ， 赋 值 器 线程 仅 会 对 来 源 空 间 进 行 访问 ， 因 此 其 颜色 为 灰色 ; 
将 赋值 器 线程 翻转 到 目标 空间 ， 相 当 于 是 将 其 着 为 黑色 ， 此 时 基于 页 保护 策略 的 二 次 映射 读 
屏障 能 够 阻止 赋值 器 线程 访问 正在 由 回收 器 线程 填充 的 灰色 目标 空间 页 (从 而 进一步 阻止 黑 
色 赋 值 器 访问 来 源 空间 中 的 陈旧 引用 )。 

Compressor 回收 器 还 必须 处 理 其 他 与 三 色 不 变 式 相 关 的 问题 。 特 别 是 ， 在 标记 完成 之 
后 、 开 始 计算 首 对 象 表 之 前 ， 为 避免 赋值 器 新 分 配 的 对 象 干扰 迁移 映射 表 的 计算 ， 新 对 象 必 
须 分 配 在 目标 空间 中 (如 果 在 来 源 空 间 的 空洞 中 进行 分 配 ， 则 会 造成 干扰 ) 。 另 外 ， 当 赋值 
器 翻转 到 目标 空间 之 后 ， 回 收 器 必须 确保 这 些 新 分 配对 象 最 终 能 够 得 到 扫描 ， 并 将 其 中 的 来 
源 空间 指针 重 定向 到 目标 空间 的 正确 副本 ， 对 于 全 局 根 也 应 如 此 。 因 此 ， 回 收 器 必须 阻止 赋 
值 器 访问 目标 空间 中 的 新 分 配对 象 以 及 全 局 根 ， 并 在 它们 所 处 的 页 上 设置 陷阱 ， 以 强迫 赋值 
器 完成 对 这 些 对 象 中 指针 的 扫描 与 重 定向 。 

Compressor 回收 器 的 性 能 严重 依赖 于 虚拟 内 存 页 映射 与 保护 操作 的 开销 ， 由 于 这 些 操 
作 的 开销 通常 较 大 [Hosking and Moss，1993]， 所 以 尽量 将 这 些 操作 批量 化 便 显 得 十 分 重要 。 
例如 在 回收 开始 之 前 ， 回 收 器 便 会 将 目标 空间 作为 整体 进行 页 保护 以 及 二 次 映射 (对 每 一 页 
分 别 执行 这 一 操作 将 导致 总 开销 过 大 )。 基 于 相同 的 原因 ，Compressor 回收 器 的 陷阱 处 理 函 
数 每 次 会 解除 8 个 虚拟 内 存 页 的 保护 〈 以 达到 陷阱 开销 与 赋值 器 线程 处 理 开 销 之 间 的 平衡 )。 

Compressor 回收 器 的 一 个 不 足 之 处 在 于 ， 一 且 赋 值 器 陷 人 目标 空间 的 页 保护 陷阱 ， 则 
其 不 但 必须 完成 被 保护 页 中 所 有 对 象 的 复制 ， 还 必须 将 这 些 对 象 中 的 所 有 指针 转发 到 其 目 
标 对 象 迁移 之 后 的 地 址 (目标 对 象 可 能 已 完成 迁移 ， 也 可 能 尚未 完成 )， 这 便 可 能 给 赋值 器 
带 来 显著 的 停顿 。 稍 后 我 们 将 介绍 Pauseless 回收 器 ,在 该 回收 器 中 ， 赋 值 器 在 陷 人 页 保护 
陷阱 之 后 最 多 只 需要 完成 一 个 对 象 的 复制 〈 且 不 需要 对 其 中 的 任何 来 源 空 间 指 针 进 行 转发 )， 
因而 减少 了 赋值 器 线程 的 工作 量 。 但 在 此 之 前 ， 我 们 会 首先 简单 回顾 一 下 Compressor 回收 
器 基于 页 保护 策略 的 整理 算法 ， 如 图 17.1 所 示 ， 图 中 不 同 颜色 的 区 域 所 代表 的 是 虚拟 内 存 
页 的 逻辑 分 组 ( 堆 的 线性 地 址 布局 并 未 在 图 中 得 到 展示 ): 
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o 存活 (live): 


区 域 )。 


RATE 


内 存 页 中 的 大 部 分 对 象 均 为 存活 对 象 (图 17.1 中 初始 状态 为 深 灰 色 的 


e BEF (condemned): 内 存 页 中 包含 少量 存活 对 象 ， 即 大 部 分 对 象 均 已 死亡 ， 此 类 内 
存 页 具有 较 高 的 整理 价值 (图 17.1 中 的 浅 灰 色 区 域 ， 深 灰色 代表 其 中 的 存活 对 象 ) 。 


e ZH (free): 


区 域 )。 


e 新 存活 (new live): 


17.1 中 边框 
e 死亡 (dead 


为 虚线 且 以 黑色 斜 线 填充 的 区 域 )。 


内 存 页 当前 处 于 空闲 状态 ， 可 以 用 于 分 配 〈 图 17.1 中 带 虚线 边框 的 


内 存 页 中 的 待 复制 对 象 已 完成 内 存 分 配 ， 但 尚未 完成 复制 (图 


) : 内 存 页 处 于 未 映射 状态 ,一 旦 没有 任何 指针 指向 该 页 中 的 对 象 ， 该 页 
便 可 被 回收 ( 即 释 放 ， 以 便 再 次 用 于 分 配 )( 图 17.1 中 以 灰色 阴影 线 填充 的 区 域 )。 


Roots 





a) Compressor ABA HR 
Roots 





b) 计算 转发 信息 ， 并 对 所 有 目标 空间 页 进行 保护 ( 带 双 水 平 线 标识 
的 区 域 )。 目 标 空间 页 包括 未 来 用 于 容纳 迁移 对 象 的 内 存 页 以 及 并 未 定 
罪 的 存活 页 。 然 后 ， 赋 值 器 的 根 将 翻转 到 目标 空间 ， 其 访问 目标 空间 受 
保护 页 的 操作 将 会 触发 陷阱 


Roots 





c) 如 果 赋 值 器 线程 在 访问 存活 页 时 触发 陷阱， 则 其 必 须 将 该 页 中 所 
有 的 指针 转发 到 目标 空间 的 对 应 地 址 。 完 成 存活 页 中 所 有 来 源 空间 指针 
的 转发 之 后 ， 赋 值 器 线程 便 可 将 其 保护 解除 


Roots 





d) 如 果 赋值 器 线程 在 访问 目标 空间 的 保留 页 时 触发 陷阱， 则 其 必须 
将 来 源 空 间 对 应 页 中 的 对 象 复制 到 该 页 ， 同 时 必须 完成 其 中 指针 域 的 转 
发 。 然 后 赋值 器 便 可 解除 该 目标 空间 页 的 保护 ， 同 时 将 那些 所 有 存活 对 
象 都 已 得 到 迁移 的 来 源 空间 页 解除 映射 (释放 其 所 对 应 的 物理 内 存 页 ， 
如 图 中 被 灰色 阴影 线 填充 的 区 域 所 示 ) 


Roots 





Live Live Live 


e) ui 所 有 存活 页 都 已 得 到 扫描 (其 中 的 所 有 指针 域 都 已 得 到 转发 ) 且 


所 有 位 于 定罪 页 中 的 存活 对 象 都 已 复制 到 目标 空间 ( 且 其 所 有 指针 域 都 已 
得 到 转发 ) 时 ， 整 理 过 程 结束 


图 17.1 Compressor [FIC 
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图 17.1a 展示 了 回收 开始 阶段 扒 的 状态 ， 此 时 回收 器 已 经 识别 出 所 有 存活 对 象 ， 并 已 经 
确定 哪些 对 象 需要 迁移 。 为 简化 后 续 对 Pauseless 回收 器 的 描述 ， 我 们 冒昧 地 限定 回收 器 仅 
XT FFT NT BE Ay ihc AY A FF ET EE. E Compressor 回收 器 中 ， 回 收 器 必须 首先 对 包含 
来 源 空间 指针 的 存活 目标 空间 页 、 用 于 容纳 迁移 对 象 的 目标 空间 页 进行 保护 ， 目 的 是 避免 
赋值 器 线程 直接 访问 它们 。 在 赋值 器 线程 执行 的 同时 ， 回 收 器 线程 会 计算 存活 对 象 的 转发 
信息 ， 并 将 其 记录 在 辅助 数据 结构 中 。 此 时 ， 推 中 内 存 页 的 布局 将 如 图 17.1b 所 示 。 然 后 回 
收 器 会 将 所 有 赋值 器 线程 的 根 翻转 到 目标 空间 ， 它 们 所 引用 的 全 部 内 存 页 都 将 处 于 保护 状 
态 。 接 下 来 回收 器 线程 便 可 开始 并 发 整理 ， 期 间 ， 一 旦 有 赋值 器 线程 访问 到 尚未 解除 保护 的 
目标 空间 页 ， 则 会 触发 陷阱 。 如 果 赋 值 器 线程 在 访问 存活 目标 空间 页 时 触发 陷阱 ， 则 必须 将 
该 页 中 的 所 有 引用 转发 到 目标 空间 ， 如 图 17.1c 所 示 ; 如 果 赋 值 器 线程 在 访问 目标 空间 中 尚 
未 填充 对 象 的 页 时 触发 陷阱 ， 则 必须 使 用 对 应 的 定罪 来 源 空 间 页 来 填充 该 页 ， 且 在 填充 完成 
之 后 还 需要 对 该 页 中 的 引用 进行 转发 ( 见 图 17.1d)。 当 某 一 定罪 来 源 空间 页 中 的 所 有 对 象 都 
已 完成 迁移 之 后 ， 该 页 的 状态 将 变 为 死亡 ， 系 统 便 可 解除 其 物理 内 存 映 射 ， 并 将 其 所 对 应 的 
物理 内 存 页 归还 给 操作 系统 ， 但 是 其 虚拟 内 存 页 依然 要 保留 到 堆 中 所 有 引用 都 已 得 到 转发 为 
止 。 当 所 有 目标 空间 页 都 已 得 到 处 理 且 都 已 解除 映射 时 ( 见 图 17.1e)， 便 标志 着 整理 过 程 的 
结束 。 接 下 来 我 们 将 对 Compressor 回收 器 与 Pauseless 进行 比较 。 


17.7.2 Pauseless 回收 器 


Compressor 回收 器 需要 对 目标 空间 中 的 保留 页 或 者 包含 来 源 空 间 指 针 的 页 进行 保护 ， 
而 Pauseless 回收 器 [Click 等 ，2005 ; Azul, 2008] 及 其 分 代 改 进 版 本 C4 回收 器 [Tene 等 ， 
2011] 则 是 对 来 源 空间 中 的 待 整理 页 进行 保护 。 因 此 它 无 需 像 Compressor 回收 器 那样 对 所 有 
目标 空间 页 进行 保护 ， 而 是 只 需 保护 真正 包含 需要 迁移 的 对 象 的 页 ( 即 集中 精力 回收 那些 存 
活 对 象 分 布 较为 稀 朴 的 、 整 理 价 值 较 高 的 页 )， 这 不 仅 可 以 减少 需要 保护 的 页 数量 ， 而 且 回 
收 器 也 可 对 待 整理 页 进行 增 量 式 的 保护 。Pauseless 回收 器 使 用 读 屏 障 来 拦截 赋值 器 访问 来 
源 空间 引用 的 操作 ， 并 在 赋值 器 载 人 该 引用 之 前 将 其 转发 ， 同 时 会 避免 赋值 器 对 整个 页 中 的 
来 源 空间 指针 进行 修正 。Pauseless 回收 器 的 最 初版 本 基于 专属 硬件 系统 来 实现 ， 该 硬件 支 
持 通过 特殊 的 引用 加 载 指令 来 直接 实现 读 屏 障 ， 但 是 对 于 一 般 的 硬件 系统 ，Pauseless 回收 
器 需要 将 读 屏 障 相关 逻辑 内 联 到 赋值 器 的 每 个 指针 加 载 操 作 中 。 

硬件 与 操作 系统 支持 。Azul 的 专属 硬件 系统 支持 多 种 快速 用 户 态 陷 阱 处 理 函 数 。 硬 件 
的 转译 后 备 缓冲 区 除了 支持 传统 的 用 户 态 与 内 核 态 这 两 种 权限 级 别 ， 还 额外 支持 第 三 种 权限 
级 别 ， 即 GC 态 。 某 些 快 速 用 户 态 陷阱 处 理 函 数 会 切换 到 GC 态 执行 。 其 转译 后 备 缓冲 区 同 
时 还 支持 大 页 表 (每 页 的 大 小 为 1MB 或 2MB)， 这 通常 要 比 标准 处 理 器 的 传统 页 要 大 得 多 。 
大 页 是 Pauseless 回收 器 的 标准 工作 单元 。 

该 便 件 系统 还 支持 一 种 快速 协作 抢占 〈co-operative preemption) 机 制 ， 为 支持 这 一 机 
制 ， 处 理 器 能 够 将 中 断 位 置 限定 在 用 户 指定 的 指令 上 ， 而 这 些 指令 通常 与 安全 回收 点 ( GC- 
safe point) 相对 应 。 也 就 是 说 ， 被 挂 起 的 线程 必然 处 于 安全 回收 点 ， 因 此 处 理 器 可 以 快速 驱 
使 运行 中 的 线程 执行 到 安全 回收 点 ， 然 后 再 恢复 该 线程 的 执行 ， 整 个 过 程 无 需 引 入 等 待 。 基 
于 这 一 机 制 ， 回 收 器 可 以 引入 一 种 十 分 快速 的 检查 点 (checkpoint) 操作 ， 即 当 赋 值 器 线程 
执行 到 检查 点 时 ， 回 收 器 可 以 令 其 执行 很 少 一 部 分 的 回收 相关 工作 ， 然 后 再 恢复 其 正常 执 
行 ， 而 对 于 已 经 阻塞 的 线程 ， 其 回收 相关 工作 则 由 回收 器 代劳 。 相 反 ， 在 传统 的 万 物 静 止 式 
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回收 器 中 ， 回 收 器 只 有 确保 所 有 赋值 器 线程 都 已 到 达到 安全 回收 点 之 后 才能 开始 处 理 。 运 行 
中 的 线程 在 检查 点 处 无 需 进行 等 待 ， 回 收工 作 也 可 在 时 间 上 得 到 均 捧 。 

上 文 提 到 ，Azul 的 专属 硬件 系统 支持 硬件 读 屏障 ， 该 屏障 可 以 根据 回收 器 所 处 的 特殊 
阶段 执行 多 种 检查 与 操作 。 算 法 17.8 展示 了 该 读 屏 障 的 主要 逻辑 : 处 理 器 首先 执行 用 户 指 
定 的 数据 加 载 操 作 ， 然 后 再 执行 读 屏障 相关 逻辑 。 读 屏障 通过 转译 后 备 缓冲 区 判断 载 人 的 值 
是 否 可 能 是 一 个 地 址 。 如 果 该 “地 址 ”( 读 屏障 保守 地 假定 其 是 一 个 地 址 ) 所 在 的 页 处 于 GC 
保护 态 ， 处 理 器 便 会 激活 快速 用 户 态 GC 陷阱 处 理 函数 。 该 屏障 会 忽略 空 引 用 。 与 Brooks 
式 间接 屏障 的 区 别 之 处 在 于 ， 该 屏障 无 需 进行 空 指针 判断 、 无 需 进行 内 存 访问 、 不 存在 载 
入 -使 用 (load-use) 惩罚 、 无 需 在 每 个 对 象 头 部 保留 转发 指针 域 ， 且 不 会 增 大 高 速 缓存 
开销 。 


算法 17.8 Pauseless 回收 器 的 读 屏障 


1 Read(src, i): 

2 ref + srclļi] 

3 if protected(ref) 

4 ref + GCtrap(ref, &src[i]) 
5 return ref 
6 
7 

8 
9 


GCtrap(oldRef, addr): 
newRef + forward(oldRef) /* 在 必要 时 进行 转发 / 复制 */ 
mark(newRef) /* 在 必要 时 进行 标记 */ 
10 loop /* 只 有 当 CAS 操作 出 现 假 性 失败 时 ， 才 进行 重 试 */ 
n if oldRef = CompareAndSwap(addr, oldRef, newRef) 
2 return /* CAS 操作 成 功 ， 结 束 */ 
13 if oldRef # *addr 
“4 return /* 其 他 线程 更 新 了 addr, 但 newRef 依然 可 用 */ 


Pauseless 回收 器 需要 从 64 位 的 指针 中 窃取 一 位 用 作 回 收 相关 标记 ， 硬 件 在 加 载 与 存储 
引用 时 会 忽略 (过 滤 ) 该 位 。 该 位 被 称 作 “ 尚 未 标记 过 ”( Not-Marked-Through，NMT) 位 ， 
在 并 发 标记 阶段 ， 赋 值 器 通过 该 位 来 判定 指针 是 否 已 经 被 回收 器 扫描 过 。 硬 件 本 身 维护 一 个 
回收 器 所 期 望 的 NMT 值 ， 对 于 赋值 器 尝试 载 人 的 指针 ， 如 果 其 NMT 值 与 该 值 不 符 ， 则 赋 
值 器 线程 将 陷入 NMT 陷阱 。 该 陷阱 依然 会 忽略 空 指针 。 

在 标准 的 硬件 系统 之 上 ， 读 屏障 只 能 通过 软件 方式 实现 ， 因 而 必然 会 引入 额外 开销 。 
GC 保护 态 检 查 可 以 通过 标准 的 页 保护 机 制 实现 ， 而 读 屏 障 则 可 以 通过 无 用 加 载 指 令 ( dead 
load instruction) 或 者 显 式 查 表 的 方式 替代 。NMT 位 的 检查 可 以 通过 内 存 多 次 映射 (mnulti- 
map) 的 方式 实现 ， 即 不 同 的 页 保护 策略 对 应 不 同 的 NMT 位 。 空 引用 通常 在 程序 中 十 分 普 
遍 ， 因 而 必须 对 其 进行 显 式 过 滤 ， 编 译 器 也 可 将 NMT 位 的 检查 整合 到 编程 语言 (如 Java) 
现 有 的 空 指针 安全 检查 中 。 软 件 过 滤 NMT 位 则 需 对 编译 器 进行 修改 ， 其 必须 在 赋值 器 的 每 
处 解 引用 操作 之 前 过 滤 掉 目标 地 址 的 NMT 位 ， 得 到 过 滤 的 指针 可 以 复 用 到 下 一 个 回收 点 9 。 
除 此 之 外 ， 也 可 对 操作 系统 进行 修改 ， 以 便 直 接 支 持 多 映射 内 存 或 者 地 址 区 间 别 名 ， 此 时 赋 
值 器 便 可 简单 地 忽略 NMT 位 。 

Pauseless 回收 器 的 回收 阶段 。Pauseless 回收 器 的 回收 过 程 分 为 3 个 主要 阶段 ， 每 个 阶 
段 都 完全 是 并 行 且 并 发 的 。 


O 到 下 一 个 回收 点 之 后 ， 如 果 系 统 的 NMT 位 依然 没有 发 生变 化 ， 则 可 以 继续 复 用 。 一 一 译 者 注 
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o 标记 (mark) 阶段 需要 周期 性 地 刷新 标记 位 。 该 过 程 需要 将 所 有 引用 的 NMT 位 设置 
到 回收 器 所 期 望 的 值 ， 同 时 需要 对 每 一 页 的 存活 性 进行 静态 分 析 。 标 记 器 从 根 (静态 
变量 、 全 局 变量 、 赋 值 器 栈 ) 开始 标记 可 达 对 象 。 借 助 于 指针 中 的 NMT 位 ， 标 记 器 
可 以 与 赋值 器 完全 并 发 执行 ， 我 们 将 在 稍 后 详 述 这 一 过 程 。 

© 迁移 〈relocate) 阶段 首先 使 用 最 新 的 标记 位 信息 来 查找 堆 中 存活 对 象 较为 稀 朴 的 页 ， 

然后 对 这 些 页 进行 整理 (将 其 中 的 对 象 迁移 )， 最 后 再 释放 其 物理 内 存 。 

该 阶段 首先 会 对 标记 阶段 选 定 的 稀 朴 页 进行 保护 ， 以 阻止 赋值 器 对 其 进行 访问 ， 然 后 再 
将 其 中 的 存活 对 象 复制 到 其 他 页 。 回 收 器 可 以 根据 额外 维护 的 转发 信息 来 引导 对 象 的 迁移 。 
如 果 赋 值 器 加 载 了 受 保护 页 中 的 引用 ， 则 读 屏障 便 会 触发 GC 陷阱 ， 该 陷阱 会 将 赋值 器 读 取 
到 的 来 源 空 间 引 用 修正 到 已 经 得 到 正确 转发 的 引用 。 当 该 页 中 的 所 有 存活 对 象 都 完成 迁移 
后 ， 回 收 器 便 可 释放 其 物理 内 存 并 立即 将 其 归还 给 操作 系统 ， 而 该 页 的 虚拟 内 存 则 必须 保留 
到 其 不 再 被 任何 指针 引用 时 才能 释放 。 

迁移 阶段 的 执行 是 连续 性 的 ， 其 释放 内 存 的 过 程 可 以 与 赋值 器 分 配 内 存 的 操作 同步 进 
行 。 该 阶段 同时 还 可 以 与 下 一 轮回 收 的 标记 阶段 并 发 进行 。 

© BARS (remap) 阶段 会 更 新 堆 中 所 有 指向 已 迁移 对 象 的 指针 。 

回收 线程 会 遍历 对 象 图 ， 并 会 为 堆 中 的 每 个 引用 执行 读 屏障 ， 从 而 完成 所 有 来 源 空 间 引 
用 的 转发 ， 就 像 赋值 器 线程 陷入 陷阱 所 执行 的 那样 。 该 阶段 完成 之 后 ， 堆 中 的 任何 对 象 都 不 
再 可 能 引用 迁移 阶段 被 保护 的 内 存 页 ， 因 此 回收 器 可 以 将 其 虚拟 地 址 空间 释放 。 

由 于 重 映射 阶段 与 标记 阶段 都 会 对 所 有 存活 对 象 进行 遍历 ， 所 以 Pauseless 回收 器 可 以 
将 它们 合并 ， 即 本 轮回 收 的 重 映射 阶段 可 以 与 下 一 轮回 收 的 标记 阶段 并 发 执行 。 

Pauseless 回收 器 存在 诸多 优势 。 首 先 ， 回 收 器 无 需 十 分 急促 地 完成 任何 阶段 。 每 个 阶 
段 都 不 会 给 赋值 器 带 来 显著 的 负担 ， 因 而 每 个 阶段 都 没有 快速 结束 的 必要 。 在 启动 新 一 轮回 
收 之 前 ， 回 收 器 并 不 会 强迫 上 一 轮回 收 尽快 结束 一 一 迁移 阶段 可 以 持续 执行 ， 且 可 以 在 任意 
时 刻 立 即 释 放 内 存 。 由 于 所 有 阶段 都 是 并 行 的 ， 所 以 回收 器 可 以 通过 调整 回收 线程 数量 的 方 
式 简 单 地 匹配 赋值 器 线程 的 分 配 速度 。 与 其 他 并 发 标记 回收 器 不 同 ， 不 论 赋值 器 的 操作 频率 
有 多 高 ， 该 回收 器 只 需 一 次 堆 遍 历 便 可 确保 完成 标记 过 程 〔( 即 对 象 不 需要 经 历 被 标记 、 回 退 
到 灰色 、 再 次 被 标记 这 一 过 程 ， 也 不 需要 借助 于 最 终 的 万 物 静 止 方式 来 确保 标记 阶段 的 结 
束 )。 回 收 器 线程 将 会 与 赋值 器 线程 一 起 竞争 CPU 时 间 ， 它 也 可 以 当仁不让 地 占用 赋值 器 线 
程 所 让 出 的 CPU 时 间 。 

第 二 ， 该 回收 器 还 存在 一 种 “自我 修复 ”能 力 ， 即 : 当 赋 值 器 由 于 加 载 了 某 个 引用 而 陷 
人 读 屏 障 陷 阱 时 ， 陷 阱 处 理 函 数 可 以 立即 对 触发 陷阱 的 引用 进行 更 新 ， 从 而 避免 赋值 器 在 同 
一 位 置 再 次 触发 陷阱 。 这 一 过 程 的 开销 取决 于 陷阱 的 类 型 。 一 旦 赋值 器 的 工作 集合 都 已 得 到 
修复 ， 它 便 可 以 全 速 运行 而 不 会 再 陷 人 任何 陷阱 。 这 也 导致 了 赋值 器 使 用 率 在 一 个 很 短 的 时 
间 内 〈 即 “陷阱 风暴 ”时 期 ) 有 所 下 降 ， 最 小 的 赋值 器 使 用 率 会 在 20ms 到 数 百 毫秒 的 时 间 
内 受到 影响 。 但 无 论 如 何 ，Pauseless 回收 器 也 不 会 引入 将 所 有 赋值 器 线程 同步 挂 起 的 万 物 
静止 阶段 。 下 面 我 们 将 更 加 详细 地 描述 各 阶段 的 处 理 流程 。 

标记 。 标 记 阶 段 所 使 用 的 是 位 图 标记 策略 。 每 个 对 象 对 应 两 个 标记 位 ， 一 个 用 于 当前 回 
收 周期 的 标记 ， 另 一 个 则 用 于 上 一 轮回 收 周期 的 标记 。 在 标记 阶段 开始 时 ， 回 收 器 首先 将 当 
前 回收 阶段 的 所 有 标记 位 清 零 ， 然 后 再 对 所 有 的 全 局 引用 进行 标记 (扫描 每 个 赋值 器 线程 根 
集合 )， 扫 描 完 一 个 线程 之 后 ， 回 收 器 将 翻转 该 线程 的 期 望 NMT 值 。 运 行 中 的 赋值 器 线程 会 
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在 回收 检查 点 完成 自身 根 集合 的 标记 ， 而 被 阻塞 (或 者 被 挂 起 ) 的 线程 则 会 由 回收 器 线程 进 
行 并 行 标记 。 赋 值 器 线程 可 以 在 其 根 集合 标记 完毕 〈 且 期 望 NMT 值得 到 置换 ) 之 后 继续 向 
前 执行 ， 但 不 论 如 何 ， 只 有 当 所 有 线程 都 通过 检查 点 之 后 ， 回 收 器 才能 进一步 处 理 标 记 阶 段 
的 其 他 工作 。 

完成 根 集合 的 标记 之 后 ， 回 收 器 便 可 使 用 类 似 于 Flood 等 [2001] 的 方式 进行 并 行 标记 ， 
且 整 个 过 程 可 以 与 赋值 器 并 发 执行 。 指 针 中 的 NMT 位 仅 对 赋值 器 有 效 ， 标 记 器 会 将 其 忽 
略 。 回 收 器 继续 执行 这 一 过 程 ， 直 到 所 有 存活 对 象 都 得 到 标记 为 止 。 新 生 对 象 将 会 在 存活 页 
中 分 配 。 由 于 赋值 器 只 可 能 持 有 (ARSA) 已 经 标记 过 的 引用 ， 所 以 新 分 配对 象 的 初始 标 
记 位 不 会 影响 到 标记 过 程 。 

在 赋值 器 并 发 执行 的 情况 下 ， 回 收 器 要 想 通 过 单 次 遍历 完成 所 有 存活 对 象 的 标记 ，NMT 
位 至 关 重 要 ， 因 为 读 屏 障 需 要 依赖 该 位 来 阻止 赋值 器 加 载 未 标记 对 象 的 引用 。 当 赋值 器 所 加 
载 引 用 的 NMT 值 与 回收 器 所 期 望 的 NMT 值 不 符 时 ， 其 便 会 陷入 NMT 陷阱 ， 陷 阱 处 理 函 数 
会 协助 标记 线程 完成 该 引用 的 标记 。 由 于 赋值 器 线程 永远 不 会 载 人 未 标记 对 象 的 引用 ， 所 以 
也 永远 不 可 能 将 其 写 入 其 他 位 置 。NMT 陷阱 同时 也 会 将 已 经 修正 (标记) 过 的 引用 写 回 内 
存 ， 因 此 在 后 续 过 程 中 这 一 引用 便 不 会 再 次 引发 陷阱 。 这 一 自我 修复 机 制 意味 着 在 进入 标记 
阶段 之 后 ， 赋 值 器 不 必 等 待 回收 器 完成 其 工作 集合 中 对 象 内 部 指针 域 的 NMT 位 的 翻转 ， 相 
反 ， 赋 值 器 线程 会 在 运行 时 翻转 其 所 遇 到 的 每 个 引用 的 NMT 位 。 稳 态 NMT 陷阱 通常 很 少 。 

当 两 个 赋值 器 线程 在 同一 地 址 触发 NMT 陷阱 时 ， 两 个 线程 均 会 陷入 陷阱 处 理 函 数 并 同 
时 对 触发 陷阱 的 引用 进行 更 新 ， 进 而 有 可 能 导致 冲突 的 产生 。 因 此 ， 陷 阱 处 理 函 数 有 必要 使 
用 compareandswap 操作 来 更 新 引用 ， 该 操作 可 以 确保 陷阱 处 理 函 数 仅 在 引用 没有 发 生变 化 
的 前 提 下 才 将 其 更 新 。 在 标记 阶段 的 开始 ， 由 于 所 有 线程 不 可 能 同时 到 达 检 查 点 ， 所 以 各 赋 
值 器 线程 可 能 会 在 很 短 的 一 瞬间 观察 到 不 同 的 期 望 NMT 值 ， 因 此 两 个 线程 的 读 屏障 有 可 能 
会 在 同一 个 引用 的 NMT 值 上 产生 重复 性 的 竞争 。 但 这 一 局 面 在 尚未 翻转 的 线程 到 达 下 一 个 
安全 回收 点 (检查 点 ) 时 便 可 结束 ， 线 程 将 在 该 点 触发 陷阱 ， 然 后 标记 自身 栈 ， 最 后 通过 该 
检查 点 继续 向 前 执行 。 

需要 注意 的 是 ， 同 一 线程 的 根 集合 不 可 能 同时 包含 两 个 NMT 位 不 同 但 所 引用 对 象 相 同 
的 指针 ， 因 而 判断 指针 是 否 相等 依然 可 以 使 用 传统 的 逐 位 比较 方式 。 

对 于 标记 阶段 的 结束 ， 唯 一 需要 注意 的 问题 是 标记 阶段 的 结束 不 应 当 发 生 在 赋值 器 线程 
读 取 到 一 个 未 标记 引用 之 后 、 为 其 执行 读 屏障 之 前 。 由 于 读 屏 障 永 远 不 可 能 跨越 安全 回收 
点 ， 所 以 我 们 可 以 借助 于 安全 回收 点 来 达到 这 一 要 求 。 因 此 ， 标 记 阶 段 需要 引入 一 个 空 的 检 
查 点 ， 赋 值 器 线程 在 该 检查 点 之 前 需要 照常 对 所 发 现 的 引用 进行 标记 ， 如 果 在 所 有 赋值 器 线 
程 都 通过 检查 点 之 后 依然 没有 发 现 新 的 未 标记 引用 ， 则 标记 阶段 可 以 安全 结束 ， 和 否则 标记 线 
程 需要 对 新 发 现 的 引用 进行 处 理 并 设置 下 一 个 新 的 检查 点 。 由 于 新 创建 的 对 象 不 可 能 包含 错 
误 的 NMT 位 ， 所 以 标记 阶段 最 终 必 然 可 以 结束 。 

迁移 。 在 迁移 阶段 首先 需要 找到 存活 对 象 较为 稀 朴 的 内 存 页 。 图 12.7 以 不 同 的 颜色 展 
示 了 虚拟 内 存 页 的 逻辑 分 组 (我们 再 次 强调 ， 此 处 并 未 依照 地 址 顺序 来 描述 堆 布 局 )。 待 整 
理 内 存 页 中 的 存活 对 象 可 能 会 被 赋值 器 根 以 及 其 他 存活 页 引用 ， 因 而 在 迁移 阶段 ， 回 收 器 需 
要 先 构建 一 个 额外 的 数组 来 保存 待 迁移 对 象 的 转发 指针 。 由 于 待 整理 页 所 对 应 的 物理 内 存 会 
在 其 中 存活 对 象 迁移 完成 之 后 立即 释放 ， 且 此 时 已 迁移 对 象 的 来 源 引用 并 未 全 部 得 到 转发 ， 
所 以 转发 指针 不 能 记录 在 待 迁移 对 象 中 。 回 收回 仅 需 对 存活 对 象 较为 稀疏 的 页 进行 迁移 ， 因 
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而 用 于 记录 转发 指针 的 额外 数组 不 会 太 大 ， 且 可 以 使 用 哈 希 表 的 方式 实现 。 转 发 信息 构建 
完毕 之 后 ， 回 收口 便 可 修改 定罪 内 存 页 的 保护 策略 ， 从 而 阻止 赋值 器 对 其 进行 访问 ， 如 图 
17.2b 所 示 。 定 罪 页 中 的 对 象 都 应 被 看 作 是 陈旧 对 象 ， 赋 值 器 不 应 再 对 其 进行 修改 。 当 赋值 
器 尝试 加 载 某 一 指向 定罪 页 的 引用 时 ， 其 将 陷入 GC 陷阱 并 由 读 屏障 进一步 进行 处 理 。 

在 定罪 页 受到 保护 之 时 ， 正 在 执行 的 赋值 器 很 有 可 能 已 经 持 有 了 陈旧 引用 。 回 收费 并 不 
会 直接 对 这 些 引用 进行 处 理 ， 而 是 由 赋值 器 在 通过 检查 点 时 对 自身 根 集合 中 的 陈旧 引用 进行 
转发 ， 并 在 必要 时 迁移 其 在 来 源 空 间 中 的 目标 对 象 (如 图 17.2c 所 示 )。 当 所 有 赋值 器 线程 都 
通过 该 检查 点 之 后 ， 回 收 器 便 可 开始 将 剩余 存活 对 象 复制 到 目标 空间 ， 且 这 一 工作 可 以 与 赋 
值 器 并 发 执行 。 读 屏障 可 以 阻止 赋值 器 访问 到 尚未 完成 迁移 的 陈旧 对 象 。 


Roots 





a) Pauseless 回收 器 的 初始 状态 ， 此 时 所 有 内 存 页 均 位 于 来 源 空间 


Roots 





b) 计算 转发 信息 ， 并 对 所 有 定罪 来 源 空 间 页 进行 保护 eater 
标识 的 区 域 )， 目 标 空 间 页 则 无 需 进行 保护 。 目 标 空间 页 包括 未 来 用 
于 容纳 迁移 对 象 的 内 存 页 以 及 并 未 定罪 的 存活 页 


Roots 





o) 将 峰值 器 根 翻 转 到 目标 空间 并 复制 其 目标 对 象 但 这 些 对 象 中 所 
包含 的 来 源 空间 引用 依然 指向 来 源 空间 。 赋 值 器 线程 在 访问 受 保护 来 
源 空间 页 中 的 对 象 时 将 引发 陷阱 ， 此 时 赋值 器 线程 必须 等 待 对 象 完成 





A) 赋值 器 线程 在 加 载 指向 受 保护 内 存 页 的 引用 时 将 甬 发 GC HB 
此 时 读 屏 障 将 对 该 引用 的 目标 对 象 进行 复制 


Roots 





e) 当 所 有 位 于 定罪 页 中 的 存活 对 象 都 已 复制 到 目标 空间 ， 且 所 有 目 
标 空间 页 中 的 引用 都 已 得 到 扫描 与 转发 时 ， 整 理 过程 结 束 


图 17.2 Pauseless 回收 器 


与 标记 阶段 类 似 ， 在 迁移 阶段 ， 阻 止 赋 值 器 加 载 陈旧 引用 仍 是 读 屏障 的 主要 任务 。 具 有 
自我 修复 能 力 的 GC 陷阱 会 对 陈旧 引用 进行 转发 ， 然 后 再 使 用 compareandswap 操作 更 新 内 存 
中 的 引用 。 如 果 来 源 空间 对 象 尚未 得 到 复制 ， 则 赋值 器 线程 必须 替代 回收 器 完成 复制 ， 如 图 
17.2d 所 示 。 由 于 GC 陷阱 处 理 函 数 运行 在 GC 保护 态 ， 所 以 赋值 器 可 以 在 这 一 状态 下 访问 已 
受到 GC 保护 的 内 存 页 。 回 收 器 不 会 对 路 越 多 个 内 存 页 的 对 象 进行 迁移 ， 也 不 会 对 存活 对 象 占 
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比较 高 的 内 存 页 进行 整理 。 大 小 达到 半 页 的 对 象 可 以 在 大 约 lms 的 时 间 内 完成 复制 ?。 

为 分 挫 在 转译 后 备 缓冲 区 中 修改 保护 策略 的 开销 ， 以 及 对 赋值 器 根 进行 转发 的 开销 ， 
Pauseless 回收 器 可 以 对 存活 对 象 较为 稀疏 的 内 存 页 进行 分 批 整理 ， 通 常 是 每 次 对 数 GB 的 内 
存 页 进行 保护 (并 迁移 其 中 的 存活 对 象 ， 最 后 将 其 释放 )。 回 收 器 只 需 确 保 其 迁移 速度 能 够 
与 赋值 器 的 分 配 速度 相 匹配 即 可 。 

重 映 射 。 对 于 存活 对 象 已 经 迁移 完毕 的 定罪 页 ， 其 虚拟 内 存 地 址 不 能 立即 释放 ， 因 此 回 
收 器 需要 引入 重 映射 阶段 来 对 存活 页 中 剩余 的 陈旧 引用 进行 转发 ， 并 对 来 源 空间 页 的 虚拟 内 
存 进行 回收 。 当 重 映射 阶段 结束 时 ， 存 活页 中 将 不 存在 任何 指向 来 源 空间 页 的 指针 ， 此 时 回 
收 器 便 可 将 后 者 的 虚拟 内 存 回收 (如 图 17.2e 所 示 )， 额 外 的 转发 指针 数组 也 可 得 到 回收 ， 一 
个 完整 的 回收 周期 就 此 结束 。 需 要 注意 的 是 ， 来 源 空间 页 的 物理 内 存在 迁移 阶段 就 已 经 得 到 
回收 。 

终结 与 弱 引 用 。 对 于 Java 中 的 弱 引 用 与 软 引 用 〈 见 12.1 节 )， 回 收回 将 某 一 引用 置 空 的 
操作 可 能 会 与 赋值 器 读 取 该 引用 的 操作 产生 竞争 。 幸 运 的 是 ，Pauseless 回收 器 可 以 与 赋值 
器 并 发 处 理 弱 引 用 与 软 引 用 ， 有 具体 方法 是 在 要 求 回收 器 在 将 尚未 标记 过 的 引用 置 空 时 必须 使 
用 compareandswap 操作 。 由 于 NMT 陷阱 处 理 函 数 已 经 使 用 了 compareandswap 操作 ， 所 以 
赋值 器 与 回收 器 都 可 以 使 用 compareandswap 来 进行 竞争 : 如 果 赋 值 器 在 竞争 中 胜出 ， 则 引 
用 将 得 到 保留 (回收 器 将 感知 到 这 一 事实 )， 而 如 果 回 收 器 在 竞争 中 胜出 ， 则 引用 便 被 成 功 
置 空 (此 时 赋值 器 将 只 能 读 取 到 空 引用 )。 

对 操作 系统 的 改进 。Pauseless 回收 器 会 较为 激进 且 持久 地 使 用 虚拟 内 存 映射 与 物理 内 
存 映射 操作 ， 这 些 操作 可 以 使 用 标准 的 操作 系统 原 语 来 实现 ， 但 是 出 于 性 能 方面 的 考虑 ， 如 
此 高 频 度 地 使 用 这 些 标准 操作 原 语 可 能 令 人 无 法 接受 。Pauseless 回收 器 对 操作 系统 内 存 管 
理 器 的 改造 可 以 带 来 显著 的 性 能 提升 [Azul，2010]。 在 企业 级 Java 应 用 程序 中 ， 每 个 处 理 
器 核心 的 内 存 分 配 率 会 达到 200 ~ 500MB/s， 为 匹配 这 一 分 配 速度 ， 系 统 必须 能 够 达到 较为 
持续 的 垃圾 回收 率 以 避免 停顿 。 在 Pauseless 回收 器 中 ， 每 一 页 最 终 都 将 被 重 映射 一 次 ( 然 
后 再 解除 映射 一 次 )， 以 回收 其 中 的 死亡 对 象 ， 这 一 过 程 不 存在 任何 物理 上 的 内 存 复制 ， 因 
此 重 映射 率 并 不 会 受到 内 存 带宽 的 显著 影响 ， 而 重 映射 本 身 的 开销 则 是 重 映射 率 的 主要 决定 
因素 。 一 般 操 作 系统 对 重 映射 操作 的 支持 存在 3 个 限制 : 

1) 每 次 重 映射 操作 都 会 隐 含 一 次 转译 后 备 缓冲 区 失效 (invalidation) 操作 。 由 于 这 一 操 
作 会 引发 多 个 (针对 所 有 核心 的 ) 跨 CPU 中 断 ， 所 以 其 开销 会 随 着 系统 中 活动 线程 的 数量 的 
增加 而 增 大 。 即 使 某 一 活动 线程 并 未 参与 重 映射 ， 或 者 与 需要 进行 重 映射 的 内 存 没有 任何 关 
联 ， 也 会 受到 该 操作 的 影响 。 

2) 只 有 较 小 的 (通常 是 4KB) 页 映射 才能 进行 重 映射 。 

3) 重 映射 操作 在 单个 进程 内 属于 串 行 操作 (需要 持 有 一 个 写 锁 )。 

为 解决 这 些 问题 ，Pauseless 回收 器 针对 操作 系统 进行 了 一 些 改进 ， 具 体 包 括 : 重 映射 时 
无 需 将 转译 后 备 缓冲 区 失效 〈 在 完成 大 量 内 存 页 的 重 映射 操作 之 后 再 进行 必要 的 失效 操作 )、 
支持 大 内 存 页 (通常 为 2MB) 的 重 映射 ， 以 及 同一 进程 内 多 个 重 映射 操作 的 并 发 。 与 传统 的 
操作 系统 相 比 ， 这 些 改进 措施 可 以 带 来 大 约 三 个 数量 级 的 速度 提升 ， 与 此 同时 ， 当 活动 线程 
的 数量 翻 倍 时 ， 重 映射 操作 整体 开销 的 增长 也 呈 线 性 趋势 。 


O 要 注意 的 是 ，Pauseless 回收 器 所 使 用 的 内 存 页 是 相当 大 的 。 
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综 上 所 述 ，Pauseless 回收 器 是 专门 为 大 型 多 处 理 器 系统 设计 的 、 完 全 并 行 、 完 全 并 发 
的 垃圾 回收 器 ， 它 不 需要 引入 万 物 静 止 的 停顿 ， 而 且 可 以 在 回收 周期 的 任意 时 刻 回收 死亡 对 
象 ， 因 此 回收 器 也 无 需 和 急迫 地 完成 某 一 阶段 以 免 赋 值 器 耗 尽 内 存 。 某 些 回收 阶段 的 切换 可 能 
会 导致 赋值 器 陷 人 “陷阱 风暴 "， 进 而 出 现 短暂 的 使 用 率 下 降 ， 但 它 的 自我 修复 能 力 可 以 确 
保 赋值 器 使 用 率 能 够 快 恢复 到 正常 水 平 。 


17.8 需要 考虑 的 问题 


本 章 介 绍 了 如 何 通过 并 发 复制 回收 、 并 发 整理 回收 来 同时 达到 降低 内 存 碎 片 和 减少 赋值 
器 停顿 的 目的 。 不 论 是 哪 种 并 发 回收 算法 ， 回 收回 都 必须 确保 赋值 器 的 操作 不 会 导致 对 象 
丢失 ， 而 对 于 移动 式 并 发 回收 器 而 言 ， 回 收 器 还 必须 确保 赋值 器 不 会 访问 到 陈旧 对 象 。 某 
些 算法 为 赋值 器 维护 目标 空间 不 变 式 ， 从 而 确保 其 永远 不 可 能 持 有 来 源 空间 陈旧 对 象 的 引 
用 [Baker, 1978]; 某 些 算法 会 引导 赋值 器 访问 目标 空间 中 的 新 对 象 (如 果 存在 的 话 )， 同 时 
依然 允许 赋值 器 对 来 源 空 间 进行 操作 [Brooks，1984] ; 还 有 一 些 算法 允许 赋值 器 继续 操作 
来 源 空间 ， 但 需要 确保 来 源 空 间 中 的 每 一 步 操作 都 必须 在 目标 空间 中 得 到 重 放 [Nettles 等 ， 
1992 ; Nettles and O'"Toole，1993]， 一 且 所 有 存活 对 象 都 已 完成 复制 ， 回 收 器 将 通过 一 步 独 
立 的 操作 使 所 有 赋值 器 翻转 到 目标 空间 。 如 果 要 避免 这 一 全 局 翻转 操作 ， 则 必须 将 每 个 对 象 
的 多 个 版 本 链接 起 来 ， 而 赋值 器 在 访问 对 象 时 ， 则 必须 通过 遍历 来 找到 其 最 新 副本 [Herlihy 
and Moss，1992]。 另 外 ， 如 果 人 允许 赋值 器 同时 对 来 源 空 间 和 目标 空间 中 的 副本 进行 更 新 ， 
则 回收 器 可 以 对 赋值 器 线程 进行 逐一 翻转 [Hudson and Moss，2001，2003]。 并 发 整理 算 
法 可 以 通过 类 似 的 方式 实现 ， 但 其 不 需要 在 每 次 回收 过 程 中 都 对 所 有 的 存活 对 象 进行 复制 
[Kermany and Petrank, 2006; Click 等 ，2005; Azul, 2008]. 

移动 式 并 发 回收 器 可 能 会 比 非 移动 式 并 发 回收 器 产生 更 长 的 停顿 时 间 : 赋值 器 的 每 次 堆 
访问 操作 都 可 能 需要 等 待 某 一 对 象 (或 者 某 些 对 象 ) 完成 复制 ， 或 者 需要 重 定向 到 对 象 的 当 
前 版 本 。Baker[1992] 设计 出 Treadmill 算法 来 解决 其 最 初 的 复制 式 回收 器 [Baker，1978] 中 
存在 的 问题 。 尽 管 复制 式 与 整理 式 算法 对 避免 碎片 化 问题 而 言 十 分 必要 ， 但 是 对 那些 对 停顿 
时 间或 频率 较为 敏感 的 应 用 程序 而 言 ， 它 们 可 能 无 法 满足 要 求 。 此 类 应 用 程序 通常 还 可 能 工 
作 于 内 存 受 限 的 环境 中 ,例如 艇 入 式 系 统 ， 此 时 避免 堆 内 存 的 碎片 化 就 显得 更 加 重要 。 我 们 
将 在 第 19 章 介 绍 如 何在 停顿 时 间 严 格 受 限 的 环境 中 使 用 并 发 复制 与 并 发 整理 回收 。 
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并 发 引用 计数 算法 


我 们 曾 在 第 5 章 介绍 过 引用 计数 算法 。 传 统 引 用 计数 算法 主要 存在 两 个 问题 : 一 是 无 法 
回收 环 状 垃圾 ， 二 是 开销 过 高 ， 特 别 是 在 多 赋值 器 线程 并 发 执行 的 环境 下 。 引 用 计数 算法 解 
决 环 状 垃圾 的 方案 是 试验 删除 (trial deletion)， 即 部 分 追踪 。 延 迟 引 用 计数 可 以 避免 赋值 器 
对 局 部 变量 执行 引用 计数 操作 ， 合 并 引用 计数 可 以 避免 许多 可 以 彼此 抵消 的 “元 余 ” 引 用 计 
数 操 作 。 合 并 引用 计数 还 有 一 个 额外 的 副作用 ， 即 它 能 够 容忍 赋值 器 之 间 的 竞争 。 上 述 三 种 
解决 方案 都 需要 引入 万 物 静 止 式 的 停顿 ， 以 便 回收 器 修正 引用 计数 、 回 收 垃圾 对 象 ， 本 章 我 
们 将 介绍 如 何 放宽 这 一 要 求 ， 以 及 如 何 对 这 些 算 法 进行 改进 ， 从 而 允许 引用 计数 回收 线程 与 
赋值 器 线程 并 发 执行 。 


18.1 简单 引用 计数 算法 回顾 


为 确保 回收 过 程 的 正确 性 ， 引 用 计数 算法 必须 遵守 “对 象 的 引用 计数 值 等 于 该 对 象 的 被 
引用 次 数 ”这 一 不 变 式 。 在 多 赋值 器 线程 环境 下 ， 维 护 这 一 不 变 式 将 更 加 复杂 。 依 靠 直觉， 
安全 地 实现 write 操作 会 比 安全 实现 reaa 操作 更 加 困难 。 更 新 一 个 指针 域 需要 三 步 操作 : 
首先 增加 新 目标 对 象 的 引用 计数 ， 然 后 再 减少 老 目 标 对象 的 引用 计数 ， 最 后 再 执行 指针 写 


入 操作 。 确 保 这 三 步 操作 的 执行 顺序 oe ae oe Te 
rite(o,i,x rite(o,i, 
是 十 分 重要 的 。 但 即使 满足 这 一 要 求 ， | 一 SE Neitelodx) 线程 2 Witelod _ 





addReference(x) addReference(y) 
在 多 赋值 器 并 发 操作 的 情况 下 仍 有 可 ro Er ea Fe R. 
能 出 现 问题 >。 对 象 既 不 能 被 过 早 地 回 GE sajes 


收 ( 例 如， 由 于 其 引用 计数 临时 性 地 
掉 零 而 被 错误 地 回收 )， 也 不 应 当成 为 ”图 18.1 在 引用 计数 算法 中 ,引用 计数 操作 必须 与 指针 更 


永久 性 的 浮动 垃圾 。 图 18.1 描述 了 这 新 保持 同步 。 此 处 的 两 个 线程 同时 更 新 闻 一 个 指 
一 问题 ， 即 使 所 有 的 引用 计数 加 减 操 ER, old 为 每 个 线程 write 方法 的 局 部 变量 
作 都 得 到 原子 化 的 执行 ， 线 程 之 间 的 交替 执行 仍 有 可 能 产生 错误 的 结果 ， 因 为 ， 在 此 处 ， 老 
目标 对 象 的 引用 计数 可 能 会 减少 两 次 ， 而 某 个 新 目标 对 象 的 引用 计数 则 可 能 超过 其 真正 被 引 
用 的 次 数 。 

并 发 引用 计数 算法 的 设计 难点 不 仅仅 在 于 引用 计数 域 的 增 减 ， 如 果 仪 需要 考虑 这 一 问 
题 ， 则 用 第 13 章 所 介绍 的 各 种 原子 操作 (例如 atomicIncrement ) 便 可 轻松 解决 问题 。 更 困 
难 的 问题 在 于 如 何 保 持 引用 计数 变更 操作 与 指针 读 写 操作 的 同步 。 在 算法 5.1 中 ,我 们 只 是 
简单 地 指出 赋值 器 的 Read 和 write 操作 都 必须 是 原子 化 的 ， 最 简单 的 实现 策略 是 对 赋值 器 
正在 操作 的 对 象 ( 即 src 对 象 ) 加 锁 ， 如 算法 18.1 所 示 。 该 算法 显然 满足 安全 性 要 求 : 4 
Read 操作 对 src 加 锁 之 后 ， 第 i 个 域 的 值 便 不 可 能 再 发 生变 化 ; 如 果 该 值 为 空 ，Reaa 操作 


O 需要 注意 的 是 ,我 们 并 不 关注 产生 竞争 时 用 户 程 序 的 执行 是 否 正确 ， 但 不 论 如 何 ， 我们 必须 保证 堆 的 
一 致 性 。 
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显然 是 安全 的 ; 如 果 该 值 为 某 一 目标 对 象 tgt 的 引用 ， 则 在 Read 操作 对 src 解锁 之 前 ，tgt 
将 至 少 存在 一 个 引用 ， 因 而 引用 计数 不 变 式 可 以 确保 tgt 的 引用 计数 不 会 掉 零 。 因 此 ， 我 们 
便 可 确保 tot 对 象 不 可 能 在 Reaa 过 程 中 被 释放 ， 且 addReference 操作 所 更 新 的 必然 是 目标 
对 象 的 引用 ， 而 不 是 已 经 被 释放 掉 的 内 存 。 类 似 地 ，write 操作 的 安全 性 也 能 得 到 保障 。 


算法 18.1 基于 锁 的 立即 引用 计数 


Read(src, i): 
lock(src) 


1 

2 

3 tgt + src[i] 

4 addReference(tgt) 
5 unlock(src) 

6 return tgt 

7 

s Write(src, i, ref): 

9 addReference(ref) 

10 lock(src) 

n old + srcli] 

2 src[i] + ref 

13 deleteReference(old) 
“ unlock(src) 


一 种 十 分 诱 人 的 解决 方案 是 基于 通用 的 原子 操作 原 语 开 发 一 种 无 锁 解决 方案 ， 但 不 幸 的 
是 ， 针 对 单一 内 存 地 址 的 原子 操作 并 不 足以 确保 算法 的 安全 性 。write 操作 的 无 锁 化 方案 并 
不 存在 问题 。 我 们 使 用 原子 自 增 与 自 减 操作 来 更 新 引用 计数 ， 同 时 使 用 compareanaswap 操 
作 来 执行 指针 写 人 ， 如 算法 18.2 所 示 。 如 果 ret 非 空 ， 则 执行 写 操作 的 线程 会 持 有 ref 的 
引用 ， 因 而 在 write 操作 返回 之 前 ，ref 不 可 能 被 回收 (不论 是 使 用 立即 引用 计数 ， 还 是 延 
迟 引用 计数 )。wzite 操作 将 会 通过 自 旋 的 方式 尝试 写 人 指针， 直到 compareandset 操作 返回 
成 功 为 止 。 只 有 写 人 操作 成 功 的 线程 才 会 对 正确 的 ola 目标 对 象 执 行 引用 计数 减少 操作 ， 因 
而 在 aeleteReference(old) 被 调用 之 前 ， 目 标 对 象 ola 的 引用 计数 将 处 于 高 佑 状态 ， 从 而 
不 可 能 被 过 早 回收 。 

然而 ， 相 同 的 策略 却 不 能 应 用 于 Reaa 操作 : 即使 Read 方法 使 用 原子 操作 原 语 来 更 新 引 
用 计数 ， 但 在 线程 载 人 引用 (第 19 行 ) 和 增加 引用 计数 (第 20 行 ) 这 两 步 操作 之 间 ， 依 然 
可 能 会 有 其 他 线程 删除 指针 src[il ， 并 将 其 目标 对 象 回 收 ， 除 非 我 们 在 这 一 过 程 中 对 sre 
加 锁 。 增 加 引用 计数 的 操作 可 能 最 终 会 施加 到 已 经 释放 的 ， 甚 至 已 经 被 重新 分 配 出 去 的 内 
存 上 。 

针对 单一 内 存 地 址 的 原子 操作 并 不 足以 构建 完整 的 解决 方案 ， 为 此 ，Detlefs 等 [2001 ， 
2002b] 基于 13.3 节 所 介绍 的 compareAndswap2 原 语 来 解决 这 一 问题 。compareandswap2 原 语 
可 以 原子 化 地 更 新 两 个 独立 内 存 地 址 的 值 。 尽 管 该 策略 并 不 足以 在 任何 情况 下 都 保持 精确 的 
引用 计数 ， 但 它 却 可 以 满足 一 个 较 弱 的 不 变 式 : 中 只 要 存在 指向 某 一 对 象 的 指针 ， 该 对 象 的 
引用 计数 值 便 不 可 能 掉 零 ; @ 如 果 某 一 对 象 不 再 被 任何 指针 引用 ， 则 其 引用 计数 最 终 必 然 会 
降 为 零 。 算 法 18.3 使 用 compareandswap2 原 语 来 确保 赋值 器 只 有 在 指针 域 的 目标 对 象 没 有 发 
生变 化 的 前 提 下 才 会 增加 其 引用 计数 ， 从 而 可 以 避免 错误 地 修改 已 经 释放 的 对 象 。 


算法 18.2 BF compareandswap 原 语 的 立即 引用 计数 存在 问题 


1 Write(src, i, ref): 
2 if ref # null 
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AtomicIncrement(&rc(ref)) /* 确保 ref 不 会 被 释放 */ 


3 

4 loop 

5 old + src[i] 

6 if CompareAndSet(&src[i], old, ref) 

7 deleteReference(old) 

8 return 

9 

w deleteReference(ref): /* 确保 ref 不 为 空 ， 或 者 不 会 被 释放 */ 
“u if ref # null 

2 AtomicDecrement(&rc(ref)) 

13 if rc(ref) = 0 

1 for each fld in Pointers(ref) 
15 deleteReference(*fld) 

16 free(ref) 


3 Read(src, i): 

19 tgt = src[i] 

20 AtomicIncrement(&rce(tgt)) /* 可 能 会 出 错 ! */ 
2 return tgt 


算法 18.3 ”基于 compareAndswap2 的 立即 引用 计数 


1 Read(src, i, root): 
2 loop 

3 tgt + srcl[i] 

4 if tgt = null 

5 return null 

6 re + rc(tgt) 

7 if CompareAndSet2(&src[i], &rc(tgt), tgt, rc, tgt, rc+1) 
8 return tgt 


18.2 缓冲 引用 计数 


立即 引用 计数 策略 要 么 需要 使 用 锁 ， 要么 需要 依赖 (目前 ) 尚未 得 到 广泛 支持 的 多 内 存 
地 址 原子 操作 原 语 。5.3 节 所 介绍 的 延迟 引用 计数 会 避免 对 局 部 变量 施加 引用 计数 操作 ， 同 
时 会 延迟 零 引 用 对 象 的 回收 ， 从 而 在 一 定 程度 上 解决 了 引用 计数 变更 操作 与 指针 读 写 操作 的 
同步 问题 。 但 是 对 于 如 何 减 少将 指针 写 人 对 象 域 时 的 引用 计数 变更 开销 ， 延 迟 引 用 计数 却 无 
能 为 力 。 接 下 来 我 们 将 介绍 缓冲 引用 计数 策略 ， 该 策略 仅 需 在 赋值 器 写 屏 障 中 使 用 简单 的 加 
载 与 写 人 操作 ， 同 时 其 也 支持 多 线程 应 用 程序 。 

为 避免 多 赋值 器 线程 同时 变更 引用 计数 的 同步 开销 ，DeTreville[1990] 将 每 个 指针 更 新 
操作 的 新 旧 引 用 写 入 日 志 中 (该 技术 应 用 在 一 个 针对 Modula-2+ 的 混合 式 回收 器 中 ， 该 回收 
器 使 用 标记 一 清扫 回收 算法 作为 处 理 环 状 垃圾 的 后 备 手 段 )。 回 收 器 使 用 一 个 单独 的 引用 计 
数 线程 来 处 理 日 志 并 修正 对 象 的 引用 计数 值 ， 从 而 天 然 保 证 了 引用 计数 变更 操作 的 原子 化 。 
为 避免 可 能 存在 的 引用 计数 先 减 后 增 操作 (从 而 导致 对 象 的 过 早 回 收 )， 引 用 计数 线程 会 先 
执行 引用 计数 增加 操作 ， 然 后 再 执行 减少 操作 。 不 幸 的 是 ， 带 缓冲 的 更 新 策略 并 未 解决 引用 
计数 变更 与 指针 写 人 操作 之 间 的 一 致 性 问题 。 为 此 DeTreville 提出 了 两 种 解决 方案 ,但 它们 
均 不 能 完全 满足 要 求 。 第 一 种 方案 是 为 整个 Write 操作 加 锁 ， 该 方案 不 仅 可 以 确保 更 新 日 志 
能 正确 地 添加 到 缓冲 区 中 ， 而 且 可 以 确保 多 线程 更 新 时 的 同步 要 求 。 为 了 避免 在 每 个 写 操作 
中 引入 锁 ， 其 第 二 种 方案 是 为 每 个 赋值 器 线程 配置 本 地 缓冲 区 ， 同 时 周期 性 地 将 缓冲 区 中 的 
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数据 传递 给 引用 计数 线程 ， 但 这 又 要 求 开 发 者 必须 小 心地 确保 每 一 步 指针 写 操作 的 原子 性 ， 
并 且 在 必要 时 通过 手工 加 锁 的 方式 来 避免 图 18.1 所 示 的 问题 出 现 。 

Bacon 和 Rajan[2001] 也 为 每 个 赋值 器 线程 配置 了 本 地 缓冲 区 ,但 其 要 求 对 指针 域 的 更 
新 必须 为 原子 化 的 ， 如 算法 18.4 所 示 ， 基 于 compareandswap 的 操作 以 及 重 试 可 以 满足 这 一 
BER. WME RS BERR AY i 的 新 旧 引 用 记录 到 本 地 的 myupaate 缓冲 区 中 (第 9 行 )。 与 此 
同时 ， 他 们 还 会 将 局 部 变量 的 引用 计数 变更 操作 延迟 ， 并 且 将 程序 的 执行 粗略 划分 为 一 个 个 
时 段 (epoch)， 回 收 器 会 维护 一 个 全 局 时 段 计 数 器 ， 同 时 每 个 线程 也 会 维护 它 的 本 地 时 段 计 
数 器 ， 系 统 基于 非 协同 时 段 (ragged epoch) 机 制 来 确保 对 象 不 会 被 过 早 回收 9?。 与 延迟 引用 
计数 类 似 ， 处 理 器 会 周期 性 地 中 断 某 一 赋值 器 线程 的 执行 ， 扫 描 其 栈 并 将 所 有 被 发 现 的 引用 
添加 到 本 地 缓冲 区 mystackBuffer 中 ， 然 后 再 将 其 mystackBuffer 以 及 myUpdates 中 的 数据 
传递 给 回收 器 ， 同 时 增加 本 地 时 段 计数 器 的 值 s。。 最 后 ， 处 理 器 会 先 将 回收 线程 调度 到 下 一 
个 处 理 器 ， 再 恢复 被 中 断 线程 的 执行 。 

在 第 不 轮 回收 中 ， 回 收 线程 最 终 会 被 调度 到 最 后 一 个 处 理 器 上 。 回 收 器 会 先 执行 第 大 
轮回 收 的 引用 计数 增加 操作 ， 然 后 再 执行 第 k=-1 轮回 收 的 引用 计数 减少 操作 ， 最 后 再 增加 
全 局 时 段 计 数 器 的 值 (为 简化 算法 ,我 们 假定 算法 18.4 中 的 全 局 upaatesBuffers 数组 无 限 
大 )。 该 算法 的 优势 在 于 ， 回 收 器 永远 不 需要 在 同一 时 刻 将 所 有 赋值 器 线程 挂 起 ， 因 而 其 属 
于 即时 回收 算法 。 需 要 注意 的 是 ， 算 法 所 使 用 的 是 延迟 引用 计数 的 一 个 变种 : 在 回收 周期 开 
始 时 ， 直 接 被 (当前 时 段 的 ) 线程 栈 所 引用 的 对 象 引用 计数 将 会 增加 ; 而 当 回 收 周期 结束 时 ， 
引用 计数 得 到 减少 的 则 是 所 有 在 上 一 个 回收 周期 中 被 线程 栈 直 接 引 用 的 对 象 。 


算法 18.4 ”并 发 缓存 引用 计数 回收 


shared epoch 
shared updatesBuffer| | /* 每 个 时 段 使 用 一 个 缓冲 区 */ 


1 

2 

3 

4 Write(src, i, ref): 

5 if src = Roots 

6 src[i] + ref 

7 else 

8 old + AtomicExchange(é&src[i], ref) 
9 log(old, ref) 


u log(old, new): 
2 myUpdates + myUpdates + [(old, new)] 


u collect(): 
5 /* 每 个 处 理 器 会 将 本 地 缓冲 区 中 的 数据 追加 到 全 局 updatesBuffer 中 */ 
6 myStackBuffer + |] 


17 for each local ref in myStacks /* 被 延迟 的 引用 计数 */ 
18 myStackBuffer ¢ myStackBuffer + [(ref, ref)] 

19 atomic 

20 updatesBuffer[e] + updatesBufferle] + myStackBuffer 

al atomic 

2 updatesBuffer[e] + updatesBufferle] + myUpdates 

2B myUpdates + 

24 e¢erz#+il 

25 


O 所 谓 非 协同 时 段 ， 是 指 系统 允许 各 线程 处 于 不 同 的 时 段 ， 而 不 是 要 求 先 到 达 某 一 时 段 的 线程 等 待 其 他 线程 ， 
19.6 节 对 此 会 有 更 加 详细 的 描述 。 一 一 译 者 注 。 
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me + myProcessorId 
if me < MAX_PROCESSORS 

schedule(collect, me+1) /* # collect () 调度 到 下 一 个 处 理 器 上 */ 
else 

/* 最 后 一 个 处 理 器 将 负责 更 新 引用 计数 */ 

for each (old, new) in updatesBuffer[epoch] 


Ng 


e 


2 addReference(new) 

3 for each (old, new) in updatesBuffer[epoch—1] 

x deleteReference(old) 

3 release(updatesBuffer[epoch—1]) /* 释放 旧 的 缓冲 区 */ 
36 


epoch ¢ epoch + 1 


18.3 ”并 发 环境 下 的 环 状 引用 计数 处 理 


接 下 来 ,我 们 将 考虑 引用 计数 算法 如 何在 不 引入 万 物 静 止 式 停 顿 的 前 提 下 实现 环 状 垃圾 
的 回收 。Recycler 回收 器 [Bacon 等 ，2001; Bacon and Rajan, 2001] 通过 在 堆 中 追踪 备 选 子 
图 的 方式 来 回收 环 状 垃圾 ， 具 体 方案 是 对 引用 计数 进行 试验 删除 (trial deletion), REZ mp 
引用 计数 策略 可 以 将 引用 计数 相关 操作 集中 到 一 个 空闲 的 处 理 器 上 ， 但 Recycler PAETE 
并 发 环境 中 依然 会 面临 如 下 3 个 问题 : 

1) 在 Recycler 回收 器 探测 环 状 垃圾 的 过 程 中 ， 由 于 赋值 器 会 并 发 修改 对 象 图 ， 所 以 回 
收 器 很 可 能 根本 无 法 再 次 扫描 同一 个 子 图 。 

2 ) 试验 删除 可 能 会 导致 子 图 与 存活 对 象 图 失去 联系 。 

3 ) 引用 计数 可 能 会 过 时 。 

为 解决 上 述 3 个 问题 ， 异 步 Recycler 回收 器 的 处 理 过 程 需 要 划分 为 两 个 阶段 。 第 一 阶段 
的 执行 过 程 与 第 5 章 所 介绍 的 同步 回收 器 几乎 相同 ， 但 是 对 于 collectwhite 方法 ( 见 算法 
5.5) 所 发 现 的 对 象 ， 异 步 模式 的 回收 器 不 是 立即 将 其 回收 ， 而 是 将 其 保留 到 下 一 个 回收 周 
期 ,并 只 有 在 确定 该 对 象 在 下 一 个 回收 周期 依然 是 垃圾 时 才能 将 其 回收 。 该 方案 存在 诸多 缺 
陷 : 首先 ， 从 理论 上 讲 (实践 中 可 能 并 非 如 此 )， 可 能 会 存在 某 些 环 状 垃圾 无 法 得 到 回收 的 
情况 ， 即 回收 器 的 完整 性 无 法 得 到 保障 ; 其 次 ， 试 验 删 除 不 能 使 用 已 有 的 引用 计数 值 ， 它 还 
要 求 在 对 象 头 部 增加 一 个 额外 的 环 状 引用 计数 域 ; 再 次 ， 为 避免 错误 地 回收 存活 对 象 ， 回 收 
器 在 第 二 阶段 需要 再 次 对 备 选 环 状 垃圾 进行 追踪 ; 最 后 ， 由 于 回收 器 必须 修正 不 正确 遍历 所 
遗留 的 白色 或 者 灰色 对 象 的 颜色 ， 所 以 增加 了 引用 计数 写 屏 障 的 额外 开销 。 

Recycler 回收 器 的 根本 问题 在 于 ， 其 试图 将 一 种 原本 为 同步 环境 而 设计 的 回收 算法 应 
用 在 对 象 图 不 断 发 生变 化 的 异步 环境 中 。 接 下 来 ,我们 将 介绍 如 何 使 用 堆 的 固定 快照 来 对 
Recycler 回收 器 进行 改进 。 


18.4 堆 快 照 的 获取 


我 们 曾 在 第 5 章 介绍 过 ， 合 并 引用 计数 会 为 回收 器 提供 堆 的 快照 。 赋 值 器 会 将 对 象 在 
(其 某 一 指针 域 ) 被 修改 之 前 的 副本 通过 线程 本 地 缓冲 区 同步 传递 给 回收 器 。 在 回收 周期 的 
开始 阶段 ， 回 收 器 会 挂 起 每 个 赋值 器 线程 并 获取 其 本 地 缓冲 区 中 的 数据 ， 然 后 再 为 其 分 配 新 
的 缓冲 区 。 回 收 器 会 通过 对 象 (被 修改 之 前 ) 的 副本 找到 其 原本 所 引用 的 对 象 并 减少 其 引用 
计数 ， 然 后 再 通过 对 象 的 当前 版 本 找到 其 当前 所 引用 的 对 象 并 增加 其 引用 计数 。 在 回收 结束 
之 前 ， 所 有 对 象 的 脏 标记 都 将 得 到 清理 。 

我 们 首先 介绍 如 何 让 引用 计数 线程 与 赋值 器 线程 并 发 执行 (需要 一 个 短暂 的 停顿 来 传递 
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缓冲 区 )， 然 后 再 考虑 如 何 将 这 一 并 发 算法 进一步 改进 为 即时 算法 。 在 第 一 种 情况 下 ， 回 收 
器 可 以 临时 性 地 挂 起 所 有 赋值 器 线程 ， 并 获取 其 缓冲 区 中 的 数据 ， 然 后 再 恢复 赋值 器 线程 的 
执行 。 接 下 来 ， 回 收 器 便 需 要 修正 每 个 已 修改 对 象 新 旧 子 节点 的 引用 计数 。 减 少 引 用 计数 可 
以 使 用 与 同步 环境 相同 的 方式 ， 即 根据 日 志 中 所 记录 的 副本 ， 但 处 理 引用 计数 的 增加 则 稍为 
复杂 ( 见 算法 18.5 )。 此 时 引用 计数 线程 必须 使 用 赋值 器 将 日 志 传递 给 回收 器 这 一 时 刻 的 对 
象 状 态 来 增加 引用 计数 。 由 于 在 这 一 时 刻 之 后 赋值 器 可 能 会 再 次 修改 日 志 中 所 记录 的 对 象 ， 
因而 此 处 需要 考虑 两 种 情况 。 


算法 18.5 ”基于 滑动 视图 来 更 新 引用 计数 


1 incrementNew(entry): /* 使 用 回收 器 日 志 中 的 数据 */ 
2 obj + objFromLog(entry) /* 当前 对 象 */ 
3 if not dirty(obj) 

4 replica + copy(obj) /* 复制 对 象 的 所 有 指针 域 * 
5 if dirty(obj) 


“Ses 


replica + getLogPointer(obj) /* 当前 时 段 的 初始 状态 位 于 某 个 线程 的 日 志 中 */ 
else 
replica + getLogPointer(ob}) 


10 for each fld in Pointers(replica) 

n child + *fld 

2 if child # null 

B re(child) + rc(child) + 1 

“ mark(child) /* 如 果 需 要 对 年 轻 代 进 行 追踪 */ 


第 一 ， 如 果 对 象 的 状态 依然 为 干净 ， 表 示 其 状态 并 未 发 生变 化 ， 此 时 引用 计数 线程 便 可 
直接 增加 对 象 当 前 子 节点 的 引用 计数 。 需 要 注意 的 是 ， 算 法 18.5 中 的 incrementnew 方法 在 
获取 干净 对 象 的 副本 之 后 ， 必 须 再 次 判断 它 的 状态 ， 因 为 在 创建 副本 的 过 程 中 赋值 器 线程 可 
能 会 重新 设置 其 脏 标 记 。 

第 二 ， 如 果 对 象 在 日 志 传 
递 完成 之 后 发 生 了 变化 ， 则 其 
状态 必然 为 脏 ， 且 其 在 变 脏 之 
前 的 状态 必然 已 经 被 记录 到 某 
个 赋值 器 线程 新 的 日 志 缓 冲 区 
中 ,与 此 同时 ， 对 象 的 脏 指针 
也 会 指向 该 缓冲 区 ， 且 回收 器 
在 访问 数据 时 无 需 与 任意 赋值 
器 线程 进行 同步 。 以 图 18.2 为 
例 ， 对 象 A 在 当前 时 段 得 到 更 
新 (write (A, 0, D) 这 一 操 
作 )， 会 导致 其 在 上 一 时 段 结束 
时 刻 指向 对 象 C 的 指针 域 被 覆 
盖 。 由 于 此 时 A 的 状态 为 胜 ， 则 其 在 本 时 段 首 次 被 修改 之 前 的 状态 必然 已 经 记录 在 某 个 线 
程 的 本 地 日 志 中 ( 即 图 18.2 中 右 侧 的 日 志 ), 该 日 志 记 录 了 从 A 到 C 的 引用 。 据 此 ， 回 收回 
便 可 减少 对 象 B 的 引用 计数 ， 并 增加 对 象 C 的 引用 计数 。 而 在 下 一 个 时 段 ， 回 收 器 则 会 根 
Hi write (A, 0, D) 的 操作 日 志 减 少 对 象 C 的 引用 计数 。 





图 18.2 并 发 合并 引用 计数 : 在 上 一 时 段 ，A 的 第 0 个 指针 域 从 B 
更 新 到 C， 原 有 目标 对 象 ( 即 B) 的 引用 将 被 记录 到 日 志 
中 。 但 在 当前 时 段 ， 该 指针 域 又 被 更 新 到 对 象 D， 因 而 其 
重新 被 标记 为 脏 ， 同 时 再 次 被 记录 到 日 志 中 。 与 图 5.2 类 
似 ， 最 初 的 引用 B 可 以 从 回收 器 全 局 日 志 中 找到 ， 而 对 象 
C 的 引用 则 可 以 从 某 个 赋值 器 线程 的 当前 日 志 中 找到 ( 即 
WR A 的 getLogPointer 域 所 引用 的 日 志 条 目 ) 
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18.5 ”滑动 视图 引用 计数 


为 获取 堆 的 快照 ， 我 们 需要 以 万 物 静止 的 方式 挂 起 所 有 赋值 器 线程 ， 然 后 再 将 其 本 地 组 
冲 区 中 的 操作 日 志 传 递 给 回收 器 。 接 下 来 我 们 将 介绍 如 何 放 宽 这 一 限制 ， 从 而 达到 一 次 只 
挂 起 一 个 赋值 器 线程 的 即时 回收 要 求 。 在 这 一 滑动 视图 (sliding view) 方案 中 ， 不 同 对 象 的 
指针 域 将 在 不 同 的 时 刻 得 到 记录 ， 同 时 也 会 在 不 同 的 时 间 点 传递 给 回收 器 线程 ， 因 此 我 们 只 
能 获取 到 堆 的 “扭曲 ”视图 。 滑 动 视图 既 不 需要 锁 ， 也 不 需要 任何 原子 操作 指令 (假定 处 理 
器 满足 顺序 一 致 性 要 求 )， 但 是 每 个 赋值 器 线程 都 需要 与 回收 器 线程 进行 4 次 握手 ， 其 握手 
的 方式 与 Doligez 和 Gonthier[1994] 类 似 。 对 于 算法 在 弱 一 致 性 模型 下 所 需 做 出 的 修改 ,我 
们 将 在 稍 后 再 做 介绍 。 滑 动 视图 可 以 应 用 于 多 种 环境 中 ,包括 朴素 引用 计数 [Levanoni and 
Petrank，1999，2001，2006]、 分 代 回 收 器 中 年 老 代 的 管理 [Azatchi and Petrank，2003]、 面 
向 年 龄 的 回收 器 [Paz 等 ，2003，2005b]， 同 时 也 可 集成 到 环 状 引用 计数 回收 器 中 [Paz 等 ， 
2005a，2007]。 此 处 我 们 仅 考 虑 如 何在 面向 年 龄 的 回收 器 中 使 用 滑动 视图 ， 以 及 如 何 对 其 进 
行 扩展 ， 以 便 能 够 回收 环 状 垃圾 。 


18.5.1 面向 年 龄 的 回收 


面向 年 龄 (age-oriented) 的 回收 器 会 将 堆 划分 为 年 轻 代 和 年 老 代 。 与 传统 的 分 代 回 收回 
不 同 ， 此 处 的 年 轻 代 对 象 和 年 老 代 对 象 将 同时 得 到 回收 ， 因 此 不 存在 独立 的 年 轻 代 对 象 回 
收 ， 也 不 存在 任何 需要 记录 的 分 代 间 指针 。 回 收 器 可 以 选择 适当 的 策略 来 管理 每 个 分 代 。 弱 
分 代 假 说 告诉 我 们 ， 大 多 数 对 象 都 将 在 年 轻 时 死亡 ， 而 年 轻 对 象 也 通常 拥有 更 高 的 变更 率 
(例如 其 初始 化 过 程 )， 因此， 回收 器 在 管理 年 轻 代 对 象 时 可 以 充分 利用 其 存活 率 低 的 特性 ， 
而 在 管理 年 老 代 对 象 时 则 可 充分 利用 其 死亡 率 低 、 变 更 率 低 的 特性 。Paz 等 [2003] 使 用 标 
记 一 清扫 策略 来 管理 年 轻 代 对 象 (因为 其 不 需要 对 大 量 死亡 对 象 进行 追踪 )， 同 时 使 用 滑动 
视图 引用 计数 策略 来 管理 年 老 代 对 象 (因为 其 可 以 处 理 包 含 大 量 存活 对 象 的 堆 )。 他 们 的 面 
向 年 龄 回收 器 并 不 会 移动 对 象 ， 而 是 通过 对 象 的 头 部 的 一 位 来 记录 其 所 属 的 分 代 。 


18.5.2 ”算法 实现 


即时 回收 过 程 首选 需要 获取 滑动 视图 ( 见 算法 18.6 )。 在 对 滑动 视图 进行 增 量 回收 时 ， 
回收 器 需要 十 分 小 心地 处 理 获取 视图 过 程 中 赋值 器 的 并 发 修改 操作 。 此 时 回收 器 需要 为 算法 
5.3 中 的 write 操作 增加 一 个 额外 的 增 量 更 新 写 屏 障 ， 该 写 屏障 的 作用 是 对 写 和 的 引用 进行 
窥探 (snoop), MAW 18.7 所 示 。 对 于 仅 被 一 个 指针 引用 的 对 象 o。， 突 探 屏 障 可 以 确保 如 下 
情况 下 对 象 o 不 会 丢失 : 某 个 赋值 器 线程 先 将 其 唯一 引用 该 对 象 的 指针 域 s 覆盖 ， 然 后 回 
收 线程 开始 获取 滑动 视图 ， 而 当 另 一 个 指针 域 s 被 添加 到 滑动 视图 之 后 ， 赋 值 器 线程 又 将 
对 象 o 的 引用 写 入 s 中 。 


算法 18.6 ”基于 滑动 视图 的 回收 器 


shared updates rer 
shared snoopFlag|MAX_PROCESSORS] /* 每 个 处 理 器 对 应 一 个 标记 */ 


collect(): 
collectSlidingView() 
即时 握手 (4) : 
for each thread t 
suspend(t) 


ey ea he ee 一 


HAGA RHF 


9 scanStack(t) 

0 snoopFlag|t] + false 
n resume(t) 

2 processReferenceCounts() 

3 markNursery() 

14 sweepNursery() 

1s sweepZCT() 

16 collectCycles() 


8 collectSlidingView(): 


19 on 一 the 一 fly handshake 1: 

20 for each thread t 

2 suspend(t) 

2 snoopFlag[t] + true 

B transfer t's buffers to updates 
2 resume(t) 

5 clean modified and young objects 

2% on—the—fly handshake 2: 

2 for each thread t 

28 suspend(t) 

» find modify-clean conflicts © 
30 resume(t) 

a reinforce dirty objects 


on—the—fly handshake 3: 
for each thread t 
suspend(t) 
resume(t) 


processReferenceCounts(): 
for each obj in updates 
decrementOld(obj) 
incrementNew(obj) 


可 


8 2 


collectCycles(): 
markCandidates() 

“u markLiveBlack() 

二 scan() 

“ collectWhite() 

” processBuffers() 


è 


算法 18.7 基于 滑动 视图 的 回收 器 : write 


shared logs[MAX_PROCESSORS] 
shared snoopFlag[MAX_PROCESSORS] 
me 人 久 myProcessorId 


if src = Roots 


1 

2 

3 

4 

s Write(src, i, ref): 
6 

7 src[i] + ref 
8 

9 


else 
if not dirty(src) 

10 log(src) 
n src[i] + ref 
2 snoop(ref) 
13 
u log(ref): 
15 for each fld in Pointers(ref) 


O 即 找 出 在 清理 过 程 中 赋值 器 所 修改 的 对 象 。 一 一 译 者 注 


/* 每 处 理 器 变量 */ 
/* 每 处 理 器 变量 */ 


$ 
$ 
/* BR */ 
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16 if «fld # null 

J add(logs|me], *f1d) 

18 if not dirty(ref) 

19 /* 如 果 ref 依然 干净 ， 则 提交 日 志 */ 


entry + add(logs[me], ref) 
logPointer(ref) + entry 


if snoopFlag|me] s& ref # null 


20 
21 
2 
» snoop(ref): 
24 
mySnoopedBuffer ¢+ mySnoopedBuffer + [ref] /* BARE */ 


在 回收 周期 开始 时 ， 回 收 器 将 设置 每 个 赋值 器 线程 的 snoopFlag (该 操作 无 需 引 入 同步 机 
制 )。 在 回收 器 收 集 某 一 线程 滑动 视图 的 过 程 中 (此 时 ， 该 线程 的 snocpFlas 必然 已 被 设置 )， 
任何 由 该 线程 写 入 堆 中 对 象 的 引用 都 将 添加 到 该 线程 的 本 地 mySnoopedButter 中 ( 见 算 法 18.7 
中 的 第 25 行 )。 依 照 三 色 抽象 的 概念 ， 这 一 Dijkstra 式 写 屏障 将 把 ret 着 为 黑色 。 为 避免 在 初 
始 化 新 分 配对 象 的 指针 槽 时 触发 写 屏障 ,算法 18.8 将 新 分 配 的 年 轻 代 对 象 着 为 灰色 。 


算法 18.8 ”基于 滑动 视图 的 回收 器 : New 


1 New(): 

2 ref ¢ allocate() 

3 add(myYoungSet, ref) 

‘ setDirty(ref) /* 将 新 分 配 的 对 象 着 为 黑色 */ 
5 


return ref 


首先 ， 当 回收 器 完成 每 个 赋值 器 snoopFlag 的 设 定之 后 ， 其 将 发 起 第 一 次 握手 过 
程 ， 该 过 程 会 依次 挂 起 每 个 赋值 器 线程 ， 并 将 其 本 地 日 志 与 年 轻 集 合 ( 即 算法 18.8 中 的 
myYoungset ) 传递 到 回收 器 的 updates 缓冲 区 中 。 

然后 ， 回 收 器 将 清理 所 有 已 修改 对 象 以 及 年 轻 对 象 的 脏 标 记 。 这 一 过 程 可 能 产生 竞争 : 
清理 过 程 是 与 赋值 器 并 发 执行 的 ， 回 收 器 可 能 会 将 赋值 器 刚刚 修改 的 对 象 的 脏 标记 清理 。 因 
此 ， 回 收 器 需要 与 每 个 线程 进行 第 二 次 即时 握手 ， 仍 然 是 依次 挂 起 每 个 线程 ， 扫 描 其 本 地 日 
志 、 识 别 出 在 清理 过 程 中 被 修改 的 对 象 ， 同 时 恢复 这 些 对 象 的 脏 标记 。 

最 后 ， 回 收 器 引入 一 次 空 的 握手 来 确保 所 有 线程 都 已 完成 上 一 步 操 作 。 此 时 ， 回 收 禹 便 
可 开始 对 年 轻 代 对 象 进行 标记 ， 同 时 更 新 年 老 代 对 象 的 引用 计数 。 

在 执行 并 发 标记 之 前 ， 回 收 器 先 要 发 起 第 四 次 握手 ， 该 过 程 仍然 需要 依次 挂 起 每 个 赋值 
器 线程 ， 依 照 传 统 的 方式 扫描 其 栈 ， 以 便 进行 后 续 标 记 一 清扫 回收 和 延迟 引用 计数 变更 。 该 
过 程 完 成 之 后 ， 回 收 器 便 可 清理 每 个 线程 的 snoopFlag。 

每 个 赋值 器 线程 的 mysnoopedBuffer 将 会 异步 地 传递 到 回收 器 的 工作 列表 。 此 时 回收 器 
已 经 可 以 处 理 年 老 代 对 象 的 引用 计数 。 需 要 注意 的 是 ， 在 年 老 代 对 象 处 理 完 成 之 前 ， 回 收 器 
不 应 当 对 年 轻 代 对 象 进行 标记 ， 因 为 赋值 器 对 年 老 代 对 象 的 并 发 更 新 很 有 可 能 创建 从 年 老 代 
对 象 到 年 轻 代 对 象 的 引用 。 

回收 器 在 对 年 老 代 对 象 进行 处 理 时 需要 依赖 updates 缓冲 区 中 新 老 对 象 的 引用 计数 。 如 
果 年 轻 代 对 象 的 引用 计数 得 到 更 新 〈 说 明 该 对 象 从 年 老 代 对 象 可 达 ， 其 将 被 提升 到 年 老 代 )， 
且 该 对 象 尚未 得 到 标记 ， 则 其 将 被 添加 到 标记 器 的 工作 列表 中 。 

在 回收 器 完成 年 老 代 对 象 的 处 理 以 及 跨 代 引用 的 识别 之 后 ， 它 将 对 年 轻 代 对 象 进行 追踪 
( markNursery ), 使 用 incrementNew 方法 对 其 进行 标记 ` 使 用 sweepNursery 方法 进行 清扫 b 
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并 最 终 回收 掉 所 有 未 被 标记 的 对 象 。 

年 老 代 对 象 可 以 使 用 与 延迟 引用 计数 相同 的 策略 进行 回收 。 未 被 标记 的 、 引 用 计数 为 零 
的 、 并 非 从 根 直接 可 达 的 对 象 都 将 得 到 回收 (使 用 sweepzcT)。 如 果 某 一 引用 计数 为 零 的 对 
象 的 脏 标记 已 被 设置 ， 则 回收 器 需要 根据 其 在 日 志 中 的 条 目 来 对 其 (曾经 的 ) 子 节点 递归 执 
行 引用 计数 减少 操作 〈 如 图 18.3 所 示 ) 否则 便 意味 着 当前 对 象 依然 在 使 用 中 。 





示 在 赋值 器 将 从 X 到 YY 的 引用 改写 为 从 X 到 ZZ 的 引用 时 对 象 图 的 状态 。 回 收 器 可 以 通过 对 日 
P X 对 应 数据 的 妃 踪 来 获取 对 和 象 图 以 前 的 状态 


18.5.3 ”基于 滑动 视图 的 环 状 垃圾 回收 


到 目前 为 止 ， 我 们 所 介绍 的 基于 年 龄 的 回收 器 均 只 能 处 理 年 轻 代 的 环 状 垃圾 ， 对 于 年 老 
代 中 的 环 状 垃圾 则 无 能 为 力 。Paz 等 [2007] 将 Recycler 的 环 状 垃圾 回收 算法 集成 到 基于 年 龄 
IEW AEA SHAR Recycler 回收 器 所 面临 的 主要 难题 在 于 其 所 处 理 的 堆 拓 扑 结构 可 能 会 发 
生变 化 ， 而 滑动 视图 则 能 够 (通过 未 修改 对 象 的 当前 版 本 ,或 者 已 修改 对 象 在 日 志 中 的 副本 ) 
为 回收 器 提供 扒 的 一 个 固定 快照 (如 图 18.3 所 示 )， 因 此 试验 删除 算法 便 可 对 其 第 一 次 所 追 
踪 的 子 图 再 次 进行 追踪 。 基 于 堆 的 滑动 视图 ， 我们 便 可 使 用 简单 的 同步 试验 删除 算法 来 处 理 
环 状 垃圾 ， 而 不 必 使 用 Bacon 和 Rajan[2001] 更 加 复杂 的 多 颜色 异步 算法 。 

Paz 等 提出 了 多 种 可 以 进一步 减少 试验 删除 所 需 遍 历 对 象 数 量 的 优化 策略 。 与 Bacon 和 
Rajan[2001] 类 似 ， 他 们 也 忽略 了 纯 值 对 象 等 不 可 能 构成 环 状 垃圾 的 对 象 。 只 有 经 历 多 个 回 
收 周 期 之 后 还 依然 存活 的 成 熟 对 象 才 会 被 当 作 备 选 垃 圾 ， 这 便 需 要 引入 一 个 备 选 垃圾 缓冲 
区 队列 ， 而 不 能 只 有 一 个 备 选 垃圾 缓冲 区 (他 们 发 现 ， 将 备 选 垃圾 的 判定 延迟 两 个 回收 周期 
RAX). Paz 等 同时 还 会 避免 将 可 能 存活 的 对 象 作 为 备 选 垃圾 ， 包 括 直接 被 根 引用 的 对 象 、 
被 宇 探 对 象 、 在 滑动 视图 收集 完毕 后 又 得 到 修改 的 对 象 。 他 们 还 额外 引入 一 个 markBlack 阶 
段 来 对 这 些 对 象 进行 预 处 理 ， 回 收 器 会 在 该 阶段 将 这 些 对 象 及 其 在 滑动 视图 中 的 子 节 点 着 为 
黑色 。 但 这 一 策略 却 存在 一 个 问题 ， 在 回收 过 程 中 ， 存 活性 可 以 确定 的 对 象 集合 (实际 上 是 
脏 对 象 集合 的 一 个 子 集 ) 通常 并 不 固定 ， 因 而 我 们 不 可 能 预测 出 在 该 对 象 变 脏 之 前 回收 器 将 
对 其 引用 计数 修改 多 少 次 ， 因 此 也 不 可 能 恢复 其 原 有 的 引用 计数 值 。 所 以 说 ， 试 验 删除 算法 
只 能 基于 另 一 个 专门 的 环 状 引用 计数 进行 操作 。 反 之 ， 如 果 回 收 器 依然 将 这 些 对 象 当做 备 选 
垃圾 ， 则 引用 计数 回收 器 将 不 得 不 处 理 更 多 对 象 。 


18.5.4 内存 一 致 性 


到 目前 为 止 ， 我 们 所 介绍 的 滑动 视图 算法 均 假定 处 理 器 满足 顺序 一 致 性 要 求 ， 但 现代 处 
理 器 通常 达 不 到 这 一 条 件 。 对 于 赋值 器 而 言 ， 写 操作 应 当 确 保 : 中 写 和 日 志 的 值 必须 是 正确 
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的 (也 就 是 说 ， 由 于 修改 操作 发 生 在 回收 开始 之 前 ， 所 以 日 志 中 的 数据 必须 能 够 反应 对 象 在 
被 修改 之 前 的 状态 ) ; 名 回收 器 在 日 志 中 读 取 到 的 数据 必须 是 完整 的 ; @ 在 回收 过 程 中 ， 写 屏 
障 必须 对 即将 写 人 对 象 域 的 引用 进行 窥探 。 在 内 存 一 致 性 较 弱 平台 上 ， 算 法 所 引入 的 4 次 握 
手 过 程 在 一 定 程度 上 可 以 解决 各 操作 之 间 的 依赖 问题 ( 即 确保 了 回收 器 在 日 志 中 读 取 到 的 数 
据 是 完整 的 ， 回 收 过 程 中 的 新 引用 都 是 经 过 窥探 的 )， 除 此 之 外 ， 算 法 还 需要 引 和 两 个 必要 的 
改进 : 第 一 ， 对 于 赋值 器 而 言 ， 对 写 屏 障 写 和 日志 的 过 程 必 须 引入 适当 的 同步 机 制 ， 只 有 这 
样 才 能 确保 在 真正 更 新 指针 域 之 前 回收 器 可 以 读 取 到 正确 的 日 志 ，Levanoni 和 Petrank [2006] 
所 使 用 的 方案 是 在 log(src) 的 前 后 插入 内 存 屏障 ; 第 二 ， 回 收 器 的 某 些 操 作 也 可 能 需要 引入 
类 似 的 同步 机 制 ， 但 是 由 于 大 部 分 对 象 在 日 志 指 针 得 到 清空 之 后 都 不 太 可 能 再 次 被 赋值 器 修 
改 ， 所 以 这 一 策略 可 能 会 比较 低 效 。 因 此 在 内 存 一 致 性 较 弱 的 平台 上 ， 回 收 器 可 以 使 用 另 一 
种 策略 来 降低 同步 开销 ， 即 在 处 理 日 志 之 前 先 从 日 志 缓 冲 区 中 读 取 一 批 数据 到 本 地 数组 中 。 


18.6 需要 考虑 的 问题 


在 并 发 环境 下 ,引用 计数 算法 所 面临 的 首要 问题 是 如 何 正 确 维护 对 象 的 引用 计数 。 最 简 
单 的 策略 是 要 求 赋值 器 在 修改 对 象 之 前 对 其 加 锁 ， 但 如 果 锁 相关 操作 的 开销 过 大 ， 则 必须 使 
用 其 他 替代 方案 。 并 发 解决 方案 的 出 发 点 在 于 避免 赋值 器 线程 之 间 为 确保 引用 计数 的 一 致 性 
而 引入 的 竞争 。 需 要 注意 的 是 ， 内 存 管理 器 所 关心 的 只 是 如 何 维护 堆 的 一 致 性 ， 至 于 赋值 器 
线程 之 间 的 竞争 是 否 会 影响 用 户 程序 的 正常 执行 ， 不 是 内 存 管理 器 应 当 关 心 的 任务 。 

为 确保 一 臻 性， 我 们 必须 考虑 如 何 将 指针 写 操作 以 及 引用 计数 变更 操作 序列 化 。 一 种 并 
不 完美 的 解决 方案 是 延迟 引用 计数 ， 该 策略 会 将 垃圾 对 象 的 回收 延迟 ， 同 时 会 将 回收 任务 交 
给 单独 的 回收 线程 来 处 理 。 但 是 ， 该 方案 却 只 能 消除 栈 和 寄存 器 中 指针 加 载 、 写 人 时 的 引用 
计数 操作 开销 ， 将 指针 写 人 堆 中 对 象 时 依然 需要 立即 执行 引用 计数 变更 操作 。 因 此 我 们 只 能 
考虑 如 何 将 更 新 指针 域 时 所 必要 的 引用 计数 变更 操作 从 赋值 器 线程 转移 到 单个 回收 器 线程 。 
一 种 解决 方案 是 每 个 赋值 器 线程 将 其 引用 计数 变更 操作 缓冲 到 日 志 中 ， 并 周期 性 地 将 日 志 
递 给 回收 器 。 合 并 引用 计数 对 这 一 思想 进行 了 拓展 ， 该 策略 会 记录 对 象 在 得 到 修改 之 前 的 快 
照 ， 从 而 可 以 减少 许多 宛 余 的 引用 计数 变更 操作 。 这 两 种 策略 都 将 引用 计数 的 变更 与 对 象 的 
回收 从 指针 写 操 作 中 独立 出 来 ， 并 交 由 单独 的 回收 器 线程 进行 处 理 〈 当 然 也 可 以 使 用 并 行 回 
收 器 线程 )。 如 果 能 够 获取 堆 在 某 一 时 刻 的 快照 ， 也 可 简化 并 发 环 状 引用 计数 算法 。 试 验 删 
除 算 法 需要 对 某 一 子 图 进行 多 次 遍历 ， 通 过 遍历 快照 的 方式 ， 即 使 在 赋值 器 并 发 修改 对 象 图 
的 情况 下 ， 回 收 器 仍 可 以 确保 每 次 所 追踪 的 将 是 相同 的 子 图 。 

最 后 我 们 需要 指出 的 是 ， 大 量 文献 都 涉及 如 何在 使 用 动态 内 存 结构 时 安全 地 进行 内 
存 回收 ， 最 早 可 以 追溯 到 IBM 370 系统 所 使 用 的 防 ABA 标签 ( ABS-prevention tag)。 其 
他 需要 引入 多 字 ( multi-word) 原子 操作 原 语 的 无 锁 引 用 计数 方案 包括 Michael 和 Scott 
[1995], Herlihy 等 [2002] 的 方案 。 还 有 一 些 解决 方案 使 用 时 间 蕉 来 将 对 象 的 回收 延迟 到 可 
以 安全 执行 这 一 操作 时 ， 但 这 一 策略 依赖 于 调度 器 ， 且 易于 导致 单个 线程 出 现 延 迟 ， 甚 至 
失败 。 例 如 ，Linux 内 核 中 所 使 用 的 读 一 复制 -更 新 (Read-Copy-Update) 策略 [McKenney 
和 Slingwine, 1998] 会 将 对 象 的 回收 延迟 到 所 有 曾经 访问 过 该 对 象 的 线程 都 达到 某 个 “ 休 
IR” 4 (quiescence point) 的 时 刻 。 其 他 使 用 立即 引用 计数 (而 非 延 迟 引 用 计数 ) 的 策 
略 通常 需要 特殊 的 编程 模式 ， 例 如 冒险 指针 (hazard pointer) [Michael, 2004] 或 者 通知 
(announcement) 策略 [Sundell，2005]。 
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在 前 面 的 几 章 中 我 们 介绍 了 并 发 回收 算法 与 增 量 回收 算法 ， 它 们 的 目的 都 是 减少 赋值 器 
可 以 感知 到 的 回收 停顿 时 间 。 在 并 发 回收 中 ， 回 收 器 与 赋值 器 在 不 同 的 处 理 器 上 同时 工作 ， 
而 在 增 量 回收 中 ， 回 收 器 与 赋值 器 在 相同 的 处 理 器 上 交替 执行 ， 且 回收 器 每 次 仅 处 理 很 少 一 
部 分 的 回收 工作 。 许 多 并 发 / 增 量 回收 算法 都 是 针对 那些 对 延迟 十 分 敏感 的 应 用 而 设计 的 ， 
在 这 些 应 用 程序 中 ， 较 长 的 停顿 时 间 可 能 会 导致 服务 质量 的 下 降 (例如 在 图 形 用 户 界 面 中 鼠 
标 呈 跳跃 式 移动 ) 。 因 此 ， 早 期 的 并 发 回收 器 和 增 量 回收 器 通常 也 称 为 实时 (real-time) 回收 
器 ， 但 是 这 些 回 收 器 仅 能 在 特定 条 件 下 (例如 限制 对 象 的 大 小 ) 满足 实时 系统 的 要 求 。 在 实 
时 系统 的 定义 得 到 明确 之 后 ， 之 前 的 各 种 回收 算法 都 无 法 确保 其 能 够 支持 真正 的 实时 行为 : 
它们 均 不 能 为 赋值 器 提供 较 强 的 前 进 保障 。 如 果 赋 值 器 (在读 写 屏障 或 者 分 配 过 程 中 ) 的 某 
些 操作 必须 加 锁 ， 则 其 前 进 保障 必然 受到 影响 。 更 加 糟糕 的 是 ， 在 支持 抢占 式 线程 调度 的 系 
统 中 ， 并 发 执行 的 回收 器 线程 可 能 会 武断 地 中 止 赋值 器 线程 的 执行 ， 进 一 步 削 弱 了 赋值 器 线 
程 的 前 进 保障 。 真 正 的 实时 回收 (real-time collection, RTGC) 必须 能 够 精确 地 控制 由 垃圾 
回收 所 导致 的 赋值 器 中 断 ， 同 时 也 必须 确保 系统 不 会 在 空间 上 超 限 。 幸 运 的 是 ， 实 时 垃圾 回 
收 算法 目前 已 经 取得 不 少 进 展 ， 从 而 将 自动 内 存 管 理 的 适用 范围 拓展 到 实时 系统 领域 。 


19.1 实时 系统 


实时 系统 对 应 用 程序 中 的 某 些 特殊 任务 存在 完成 时 间 上 的 限制 ， 即 这 些 实时 任务 必须 要 
在 给 定 的 时 间 窗 内 对 系统 输入 (事件 ) 进行 响应 。 如 果实 时 任务 无 法 在 给 定时 间 内 完成 ， 要 
么 会 导致 系统 服务 质量 的 下 降 (例如 在 数字 视频 的 播放 过 程 中 出 现 丢 帧 )， 要 么 可 能 导致 灾 
难 性 的 系统 失败 (例如 在 错误 的 时 间 产 生火 花 塞 点 火 信 号 ， 从 而 对 内 燃 机 造成 破坏 )。 因 此 ， 
实时 系统 不 仅 必 须 满足 逻辑 上 的 正确 性 ， 其 对 实时 事件 的 响应 还 必须 满足 时 效 性 要 求 。 

软 实 时 系统 (soft real-time system) 能 够 容忍 响应 时 间 超 限 ， 但 代价 是 服务 质量 下 降 ， 
例如 视频 播放 系统 。 过 多 的 响应 时 间 超 限 将 导致 服务 质量 无 法 接受 ， 但 偶尔 出 现 响应 时 间 超 
限 并 无 大 碍 。Printezis[2006] 建议 在 设计 针对 软 实时 系统 的 垃圾 回收 器 时 ， 应 当 首先 确定 最 
大 垃圾 回收 时 间 、 系 统 时 间 片 (time slice) 的 长 度 、 可 以 接受 的 失败 率 。 在 给 定时 间 片 的 任 
意 时段 内 ， 垃 圾 回收 器 所 占用 的 时 间 都 不 应 当 超 过 最 大 回收 时 间 ， 且 系统 违背 这 一 要 求 的 次 
数 必 须 控制 在 可 以 接受 的 失败 率 范 围 内 。 

比 软 实 时 系统 要 求 更 为 严格 的 是 硬 实 时 系统 (hard real-time system)， 此 类 系统 一 旦 出 
现 响 应 时 间 超 限 ， 则 意味 着 严重 的 系统 失败 (例如 在 工程 控制 领域 )。 正 确 的 硬 实时 系统 必 
须 确保 所 有 实时 约束 条 件 都 得 到 满足 。 面 对 这 一 时 间 上 的 约束 条 件 ， 很 有 必要 对 实时 系统 中 
垃圾 回收 的 响应 能 力 从 两 方面 进行 描述 : 一 方面 反映 出 应 用 程序 自身 的 要 求 ( 软 / 硬 实时 系 
统 )， 另 一 方面 则 反映 出 垃圾 回收 器 的 行为 [Printezis，2006]。 

对 于 实时 系统 而 言 ， 程 序 执行 的 可 预测 性 (predictability) 比 性 能 或 者 吞吐 量 更 加 重 
要 。 实 时 任务 在 时 间 上 的 行为 表现 应 当 在 系统 设计 时 便 可 预先 确定 ， 或 者 在 测试 过 程 中 依 
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照 经 验 来 确定 ， 因 此 其 在 运行 过 程 中 的 响应 时 间 便 可 提前 预知 (在 一 定 的 可 信 度 范围 内 )。 
任务 的 最 差 执行 时 间 (worst-case execution time, WCET) 是 指 其 在 特定 的 硬件 平台 上 独占 
式 ( 即 忽略 重新 调度 ) 执行 时 所 需 的 最 大 时 间 。 多 任务 (multitask) 实时 系统 在 对 任务 进行 
调度 时 必须 确保 每 个 任务 的 时 限 要 求 均 得 到 满足 。 要 确保 这 些 限制 条 件 能 够 在 运行 时 得 到 满 
足 ， 设 计 者 就 必须 事先 基于 特定 的 运行 时 调度 算法 (通常 是 基于 优先 级 ) 进行 可 调度 性 分 析 
(schedulability analysis ) 。 

实时 应 用 程序 通常 运行 在 针对 特定 目的 而 设计 的 舱 入 式 系 统 中 ,例如 上 文 曾经 提 到 的 工 
程控 制 系 统 。 单 芯片 处 理 咒 在 舱 入 式 系 统 中 占 主导 地 位 ， 因 而 增 量 垃圾 回收 技术 可 以 很 自然 
地 迁移 到 骨 入 式 系 统 中 ， 但 随 着 多 核 误 入 式 处 理 器 变 得 越 来 越 普遍 ， 并 发 回收 与 并 行 回收 在 
典 入 式 领 域 中 也 开始 占有 一 席 之 地 。 另 外 ， 与 通用 平台 相 比 ， 舱 入 式 系统 在 空间 方面 的 限制 
通常 更 加 苛刻 。 

综 上 所 述 ， 万 物 静止 式 回 收 、 并 行 回 收 ， 甚 至 是 并 发 回收 均 会 给 赋值 器 引入 不 可 预测 
的 时 间 停 顿 ， 因 此 它们 均 不 能 满足 实时 系统 的 要 
求 。 传 统 垃圾 回收 器 的 回收 工作 量 决 于 应 用 程序 
已 用 内 存 的 总 量 与 对 象 的 大 小 、 对 象 之 间 的 内 在 
度 ， 因 此 回收 器 的 调度 情况 可 能 会 如 图 19.1 所 si NER, HPA 
示 。 这 一 情况 下 ， 赋 值 器 的 处 理 器 使 用 率 不 仅 无 Ee 
法 预测 ， 也 不 能 长 期 保持 在 同一 水 平 。 


19.2 ”实时 回收 的 调度 


何 时 触发 垃圾 回收 以 及 如 何 触 发 ， 是 回收 器 影响 赋值 器 执行 的 主要 方面 。 对 于 万 物 静 止 
式 的 回收 器 ， 只 有 当 赋 值 器 在 内 存 分 配 的 过 程 中 感知 到 内 存 耗 尽 时 才 会 唤起 垃圾 回收 ;， 增 量 
回收 器 会 要 求 赋 值 器 在 每 次 堆 访 问 过 程 (通过 读 / 写 屏障 ) 以 及 内 存 分 配 过 程 中 承担 一 定 的 
回收 工作 ; 并 发 回收 器 会 在 赋值 器 工作 的 同时 并 发 执行 回收 工作 ， 但 仍 需 要 引入 赋值 器 屏 
障 来 确保 回收 器 与 赋值 器 之 间 的 同步 。 为 了 维持 稳定 的 空间 消耗 ， 回 收 器 释放 并 回收 死亡 对 
象 的 速率 应 当 能 够 匹配 赋值 器 创建 新 对 象 的 速率 。 内 存 碎片 会 造成 空间 上 的 浪费 ， 进 而 有 可 
能 导致 最 差 情 况 下 赋值 器 的 分 配 请 求 无 法 得 到 满足 ， 除 非 回 收 器 本 身 具 有 迁移 存活 对 象 的 能 
力 , 或 者 可 以 借助 于 一 个 独立 的 整理 过 程 。 但 是 ,迁移 对 象 可 能 会 引入 额外 的 负担 ， 从 而 可 
能 影响 到 实时 任务 的 完成 。 

SIAR AIL, 研究 者 们 已 经 提出 了 多 种 不 同 的 实时 垃圾 回收 调度 策略 ， 并 且 描 述 了 不 同 
策略 下 回收 工作 对 赋值 器 的 影响 [Henrikson，1998 ; Detlefs, 2004b ; Cheng and Blelloch, 
2001; Pizlo and Vitek，2008]。 基 于 工作 的 调度 (work-based scheduling) 策略 会 将 回收 工作 
分 挫 到 赋值 器 的 每 个 工作 单元 中 。 基 于 间隙 的 调度 ( slack-based scheduling) 策略 则 会 在 实 
时 任务 的 调度 间隙 执行 回收 工作 ( 即 当 没有 实时 任务 正在 运行 时 )。 如 果实 时 任务 的 发 生 频 
率 不 高 ,或 者 只 是 周期 性 地 发 生 ( 即 简单 地 按照 某 一 固有 频率 发 生 )， 则 实时 任务 的 调度 间 
隙 可 能 会 在 整体 执行 时 间 中 占据 相当 大 的 比例 。 在 支持 优先 级 调度 策略 的 系统 中 ， 令 回收 线 
程 的 优先 级 低 于 实时 任务 ， 便 可 简单 地 实现 基于 间 辽 的 调度 。 基 于 时 间 的 调度 (time-based 
scheduling) 策略 会 为 回收 器 保留 预定 的 独占 式 运行 时 间 ， 在 此 期 间 赋值 器 线程 将 处 于 挂 起 
状态 ， 该 策略 可 以 确保 系统 能 够 满足 预定 的 最 小 赋值 器 使 用 率 要 求 。 
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19.3 ”基于 工作 的 实时 回收 


经 典 的 Baker[1978] 增 量 式 半 区 复制 回收 器 是 最 早 在 实时 垃圾 回收 领域 进行 尝试 的 回收 
算法 之 一 。 该 算法 基于 对 象 (此 处 是 指 Lisp 语言 的 cons 单元 ) 大 小 固定 这 一 限制 提出 了 一 
种 分 析 实 时 行为 的 精确 模型 。 我 们 曾 在 第 15 章 介 绍 过 ，Baker 式 读 屏障 会 把 赋值 器 即将 访 
问 的 来 源 空间 对 象 复制 到 目标 空间 ， 从 而 阻止 赋值 器 访问 来 源 空 间 中 的 对 象 。 由 于 对 象 的 大 
小 都 是 固定 的 ， 所 以 单个 读 屏 障 的 工作 量 是 有 界 的 。 与 此 同时 ， 赋 值 器 在 每 次 内 存 分 配 过 程 
中 也 会 执行 有 限 的 回收 工作 〈 即 扫描 固定 数量 的 灰色 目标 空间 域 ， 并 在 必要 时 复制 其 大 小 固 
定 的 来 源 空间 目标 )。 分 配 过 程 扫描 的 域 越 多 ， 则 回收 过 程 结束 得 越 快 ， 但 赋值 器 执行 得 也 
更 慢 。Baker[1978] 给 出 了 其 回收 器 在 时 间 和 空间 方面 的 界限 : 其 空间 界限 为 2R C1 + 1/k), 
其 中 尺 为 可 达 空 间 大 小 , 大 为 可 调整 的 时 间 界 限 ， 它 是 由 内 存 分 配 过程 中 赋值 器 所 需 扫描 的 
域 的 数量 决定 的 。Baker 并 未 给 出 变 长 数组 的 增 量 式 复 制 方法 ， 但 这 一 问题 并 非 其 所 关注 的 
主要 方面 。 


19.3.1 并 行 、 并 发 副本 回收 


Blelloch 和 Cheng [1999] 将 Baker[1978] 的 分 析 拓 展 到 多 处 理 器 环境 ， 他 们 提出 了 一 种 
并 发 、 并 行 副 本 复制 回收 算法 ,并 推导 出 了 该 回收 器 在 时 间 和 空间 上 的 界限 。 在 后 续 实现 该 
回收 器 的 过 程 中 ， 他 们 最 早 提出 用 最 小 赋值 器 使 用 率 ( minimum mutator utilisation) 这 一 概 
念 来 描述 回收 器 给 赋值 器 所 带 来 的 干扰 [Cheng and Blelloch，2001]。 由 于 他 们 的 回收 器 依然 
是 基于 工作 的 ， 所 以 不 论 该 回收 器 付出 多 大 的 努力 来 最 大 限度 地 降低 停顿 时 间 ， 其 停顿 时 间 
的 分 布 仍 会 出 现 不 可 预测 的 变化 ， 从 而 导致 赋值 器 在 满足 实时 要 求 方面 存在 一 定 的 困难 。 我 
们 将 在 19.5 节 看 到 ， 最 小 赋值 器 使 用 率 也 可 以 用 于 引导 基于 时 间 的 实时 垃圾 回收 调度 ， 此 
时 最 小 赋值 器 使 用 率 将 成 为 回收 器 的 一 个 输入 约束 条 件 。 另 外 ， 对 于 如 何在 严格 满足 时 间 界 
限 要 求 的 同时 满足 空间 界限 要 求 ，Blelloch 和 Cheng 为 后 来 者 提供 了 十 分 有 用 的 启示 ， 接 下 
来 我 们 将 介绍 其 具体 设计 实现 。 

机 器 模型 (machine model). Blelloch 和 Cheng 提出 了 一 种 理想 化 的 机 器 模型 ， 而 
真正 的 回收 器 实现 则 必须 尽力 弥补 真正 的 机 器 模型 与 这 一 理想 化 模型 之 间 的 差异 。 该 模 
型 假定 机 器 本 身 是 一 个 典型 的 对 称 共 享 内 存 多 处 理 器 ， 且 提供 了 可 以 用 于 同步 操作 的 
TestAndSet 和 Fetchandada 指令 。 这 些 原 语 可 以 直接 由 硬件 支持 ， 也 可 使 用 Loadinked/ 
StoreConditionally 或 者 compareAndswap 原 语 在 现代 对 称 多 处 理 器 上 简单 地 实现 ,但 其 同 
时 要 求 Fetchandada 指令 必须 以 公平 的 方式 实现 ， 从 而 确保 每 个 处 理 器 的 前 进 保障 。 他 们 还 
假定 可 以 使 用 一 种 简单 的 中 断 方式 来 实现 每 个 处 理 器 上 增 量 回收 的 开始 与 结束 ， 这 可 以 通过 
我 们 在 11.6 节 所 描述 的 安全 回收 点 来 实现 。 更 加 重要 的 是 ， 他 们 假定 内 存 访问 模式 满足 顺 
序 一 致 性 ， 这 一 要 求 给 回收 器 的 具体 实现 带 来 了 更 高 的 挑战 ， 因 为 某 些 内 存 访问 指令 必须 以 
适当 的 方式 排序 以 确保 正确 性 。 

该 模型 中 的 内 存 空间 可 以 看 作 是 一 组 连续 位 置 的 集合 ， 其 地 址 范围 是 [2..M + 1] ( 值 为 0 
或 者 1 的 指针 具有 特殊 含义 )， 其 中 M 是 系统 的 最 大 内 存 大 小 。 每 个 位 置 都 至 少 可 以 持 有 一 
个 指针 。 

为 简化 时 间 分 析 ， 他 们 将 系统 执行 一 条 指令 所 需 花 费 的 最 长 时 间 当 作 是 每 条 指令 的 执行 
时 间 (指令 之 间 的 中 断 不 计 入 该 时 间 )。 

应 用 模型 (application model) 。 应 用 模型 假定 赋值 器 基于 传统 的 Reaa、write 以 及 
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New(n) 操作 进行 工作 ， 其 中 后 者 会 分 配 一 个 包含 对 个 域 的 对 象 并 返回 其 首 个 域 的 地 址 ， 同 
时 该 对 象 还 包括 一 个 供 内 存 管理 器 使 用 的 头 部 字 。 除 此 之 外 ，Blelloch 和 Cheng 还 假定 每 个 
处 理 器 在 调用 New (n) 之 后 都 会 立即 调用 次 tnitslot (v) 来 对 新 创建 对 象 的 n 个 域 进行 初 
taik, HP nM o 开始。 处 理 器 在 使 用 该 对 象 之 前 ， 或 者 调用 下 一 次 New 操作 之 前 ， 必 须 
确保 这 nn 次 Initslot 调用 已 经 完成 ， 而 Read 和 write 操作 则 可 以 与 Initslot 操作 以 任意 
方式 穿插 调用 。 另 外 ， 理 想 化 的 应 用 模型 假定 write 操作 是 原子 化 的 〈( 即 任意 两 个 处 理 器 的 
write 操作 都 不 可 能 发 生 重 又 )。 内 存 管理 器 同时 还 支持 isPointer(p, i) 函数 来 判定 指针 p 
所 引用 对 象 的 第 i 个 域 是 否 为 指针 ， 其 返回 结果 通常 是 由 对 象 的 静态 类 型 决定 的 ， 而 在 面向 
对 象 语言 中 则 是 由 其 所 属 的 类 决定 的 。 

算法 实现 (the algorithm )。 回 收 器 大 体 上 以 Nettles 和 OToole[1993] 的 副本 复制 回收 器 
作为 原型 进行 设计 ， 但 其 不 同 之 处 在 于 ， 赋 值 器 所 遵守 的 并 非 来 源 空间 不 变 式 ， 也 并 不 需要 
对 赋值 器 更 新 进行 记录 ， 而 是 遵守 副本 不 变 式 (replication invariant): 在 回收 过 程 中 ， 如 果 
赋值 器 需要 更 新 某 一 对 象 ， 则 其 必须 同时 更 新 对 象 主体 及 其 副本 (如 果 存 在 的 话 ); 在 回收 
过 程 中 ， 当 分 配器 分 配 新 对 象 时 ， 其 不 仅 要 在 来 源 空 间 中 创建 出 对 象 主体 ， 也 要 在 目标 空间 
中 创建 出 它 的 副本 。Blelloch 和 Cheng 还 使 用 Yuasa[1990] 式 起 始 快照 删除 写 屏 障 来 确保 算 
法 的 正确 性 。 

Blelloch 和 Cheng 假定 每 个 对 象 主 体 P 都 存在 一 个 头 域 forwardingAddress(p), 与 此 
同时 ， 每 个 对 象 副本 r 都 存在 一 个 头 域 copycount (r) (这 两 个 域 可 以 复 用 相同 的 槽 ， 因 为 
两 个 域 不 可 能 同时 出 现在 同一 副本 中 )。 该 头 域 在 回收 过 程 中 可 以 扮演 多 个 角色 : 在 对 象 
主体 上 进行 同步 ， 以 便 控 制 由 哪个 线程 生成 副本 、 用 作 指 向 对 象 副本 的 转发 指针 ; 在 对 
象 副本 中 记录 还 有 多 少 域 需要 从 主体 复制 到 其 中 、 在 赋值 器 以 及 复制 线程 操作 对 象 副本 时 
确保 同步 。 当 对 象 主体 为 白色 时 ， 将 只 存在 主体 而 没有 副本 ， 因 而 其 头 域 的 值 为 零 ( 即 
forwardingAddress(p)=null); 如 果 对 象 变 为 灰色 ， 且 回收 器 已 完成 其 副本 r 的 空间 分 配 ， 
则 对 象 主体 中 头 域 的 值 将 变 成 指向 副本 的 转发 指针 ( 即 forwaraingadaress (p)=r)， 而 副本 
r 中 头 域 的 值 则 为 待 复制 域 的 数量 ( 即 copycount (r) =n) ; 当 对 象 变 为 黑色 时 ( 即 复制 完成 )， 
其 副本 头 域 的 值 将 为 零 (copycount (r) =0 )。 

算法 依照 图 19.2 所 示 的 方式 将 扒 组 织 为 两 个 半 区 。fromBot 和 fromTop 两 个 变量 组 成 了 
来 源 空间 的 边界 ， 且 它们 都 属于 线程 私有 变量 。 回 收 器 在 目标 空间 的 顶部 显 式 维护 一 个 复制 
栈 用 以 持 有 灰色 对 象 的 引用 。 我 们 在 14.6 节 曾 经 提 到 ，Blelloch 和 Cheng 声称 ， 对 于 并 发 
回收 线程 之 间 在 共享 复制 工作 时 的 局 部 性 以 及 同步 问题 ， 显 式 复 制 栈 会 比 Cheney 队列 更 加 
容易 控制 。 所 有 的 副本 以 及 新 分 配对 象 均 位 于 变量 toBot 和 free 之 间 的 区 域 ， 而 复制 栈 则 
位 于 变量 sharedStack 和 toTop 之 间 的 区 域 ( 栈 的 增长 方向 为 从 toTop 到 | sharedStack ) a 如 
果 free=sharedstack， 则 意味 着 内 存 耗 尽 ， 此 时 如 果 回 收 器 没有 启动 ， 其 将 被 激活 ， 和 否则 系 
统 将 抛 出 内 存 错 误 。 变 量 toBot 和 toTop 也 为 线程 私有 变量 而 free 和 sharedstack 则 为 共 


享 变量 。 
fromBot fromTop 


toBot free sum 





toTop 





comm SharedStack 


图 19.2 Blelloch 和 Cheng 基于 工作 的 回收 器 : 堆 结 构 
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在 算法 19.1 中 ，copyonslot 方法 展示 了 将 对 象 主体 中 的 某 个 槽 复制 到 其 副本 的 过 程 ， 
该 方法 以 待 复制 灰色 对 象 主体 p 作为 参数 ， 并 依照 副本 中 所 记录 的 待 复 制 域 数量 进行 复制 ， 
同时 将 其 所 复制 域 的 目标 对 象 着 为 灰色 (调用 makecrey 方法 )， 最 后 再 减少 副本 中 待 复 制 域 
的 数量 。 函 数 执行 完毕 后 ， 如 果 p 中 依然 存在 待 复制 域 ， 则 其 将 依然 保持 灰色 ， 回 收 器 会 再 


次 将 其 压 入 本 地 复制 栈 中 (针对 本 地 栈 的 操作 可 以 参见 算法 14.8 )。 


算法 19.1 Bilelloch 和 Cheng 基于 工作 的 回收 器 : 复制 算法 


shared gcon ¢ false 
shared free 


/* 分 配 基 址 


3 shared sharedStack /* 复制 栈 的 栈 顶 指针 
s copyOneSlot(p): /* P 为 灰色 主体 对 象 
6 r + forwardingAddress(p) /* 指向 副本 的 指针 
7 i + copyCount(r)—1 /* 待 复制 槽 的 索引 值 
8 copyCount(r) + —(i+1) /* 加 锁 ， 以 避免 复制 过 程 中 赋值 器 进行 写 操作 
9 v + pli] 

10 if isPointer(p, i) 

u v + makeGrey(v) /* 如 果 立 是 指针 ， 则 将 其 着 为 灰色 
12 rl[i] te 1 /* Bil Ky 
B aaa ei /* 将 该 对 象 解锁 ， 同 时 将 待 复制 索引 号 说 减 
14 ipi > 

15 localPush(p) /* 重新 压 入 本 地 复制 栈 


7 makeGrey(p): 


/* p 必须 为 主体 对 象 


18 if TestAndSet(sforwardingAddress(p)) # 0 /* 通过 竞争 的 方式 来 获取 转发 地 址 写 入 权 
» /* 竞争 失败 */ 

2» while forwardingAddress(p) = 1 

a /* 等 待 : 直到 转发 地 址 变 为 合法 地 址 */ 

2 else 

z /* 竞争 胜出 */ 

count + length(p) /* 对 象 主体 的 长 度 
25 r + allocate(count) /* 分 配 副本 
z% copyCount(r) + count /* 在 副本 中 设置 待 复制 域 的 数量 
了 forwardingAddress(p) + r /* 为 主体 对 象 设置 转发 地 址 
z localPush(p) /* 将 主体 对 象 压 入 复制 栈 
2» return forwardingAddress(p) 


allocate(n): 
ref + FetchAndAdd(&free, n) 


2 


32 

3 if ref + n > sharedStack /* 目标 空间 是 否 耗 尽 ? 
34 if gcOn 

35 error "Out of memory" 

% interrupt(collectorOn) /* 中 断 赋值 器 ， 并 启动 下 一 轮回 收 
Ey allocate(n) /* ix 
38 return ref 


wy 
sy 


makeGrey PRA SKF AENA ( 即 尚未 创建 副本 的 对 象 ) 着 为 灰色 ， 并 返回 其 副本 的 地 
址 。 由 于 多 处 理 器 可 能 同时 尝试 将 某 一 对 象 着 色 ， 所 以 算法 使 用 Testandset 原 语 来 检测 
对 象 是 否 依然 为 白色 ， 从 而 避免 了 同一 对 象 出 现 多 个 副本 的 情况 出 现 。 我 们 将 从 “复制 - 
复制 ”竞争 中 胜出 的 处 理 器 称 为 “指定 复制 者 ”( designated copier)。makeGrey pK A i 22 Xt 


forwardingAddress(p) 可 能 出 现 的 3 种 情况 进行 区 别 对 待 : 


l ) Testandset 操作 返回 零 ， 表 明 当 前 处 理 器 成 为 “指定 复制 者 ”"， 然 后 该 处 理 器 将 会 : 
在 目标 空间 中 为 副本 * 分 配 空间 、 将 其 头 域 copycount (x) 设置 为 对 象 的 长 度 、 将 对 象 主体 
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的 头 域 forwardingaddress (p) 设置 为 副本 r 的 地 址 、 将 对 象 主体 的 引用 压 人 私有 复制 栈 中 ， 
最 后 返回 副本 r 的 引用 。 

2) Testandset 操作 返回 非 零 ， 且 头 域 的 值 为 合法 的 转发 地 址 ， 此 时 makecrey 方法 只 需 
简单 地 返回 副本 的 引用 。 

3 ) Testandset 操作 返回 非 零 ， 但 其 头 域 的 值 为 1， 这 意味 着 “指定 复制 者 ”正在 为 该 
对 象 创建 副本 ， 但 尚未 设置 转发 指针 。 此 时 ， 当 前 处 理 器 必须 等 待 到 该 头 域 变 成 合法 的 转发 
地 址 为 止 。 

算法 19.2 展示 了 回收 过 程 中 赋值 器 各 项 操作 的 执行 代码 。New 操作 使 用 allocate 方法 
来 为 对 象 主 体 及 其 副本 分 配 空间 ， 同 时 为 后 续 即 将 调用 的 Initslot 设置 必要 的 参数 ， 以 便 
其 完成 对 象 的 初 值 设 定 : 变量 lasta 记录 了 上 一 个 新 分 配对 象 的 地 址 ，1astL 记录 了 其 长 度 ， 
而 laste 记录 了 其 中 有 和 多少 个 槽 已 经 完成 初始 化 。Initsilot 函数 将 使 用 下 一 个 槽 的 初 值 同 
时 初始 化 对 象 主体 及 其 副本 中 的 对 应 槽 ， 然 后 增加 lastc。 为 了 维持 “禁止 黑色 对 象 持 有 白 
色 引 用 ”的 强 三 色 不 变 式 要 求 ，Iinitslot 方法 需要 将 所 有 指针 着 色 。 赋 值 器 每 分 配 一 个 字 ， 
collect (k) 方法 便 会 增 量 式 的 复制 大 个 字 。 从 设计 上 讲 ， 算 法 允许 回收 器 在 某 一 对 象 部 分 初 
始 化 的 情况 下 〈 即 某 一 处 理 器 的 1astc zx lastu) 开始 新 一 轮回 收 。 


算法 19.2 Blelloch 和 Cheng 基于 工作 的 回收 器 : 赋值 器 操作 (gcon=true) 


1 lastA /* 每 处 理 器 指针 变量 ， 指 向 上 一 个 新 分 配 的 对 象 */ 
2 lastL /* 每 处 理 器 变量 ， 代 表 上 一 个 新 分 配对 象 的 长 度 */ 
3 lastC /* 每 处 理 器 变量 ,记录 上 一 个 新 分 配对 象 中 有 多 少 个 模 已 完成 初始 化 */ 
s Read(p, i): 

6 return plil] 

s New(n): 

9 p + allocate(n) /* 分 配对 象 主体 */ 
0 r + allocate(n) /* 分 配对 象 副本 */ 
u forwardingAddress(p) + r /* 将 对 象 主体 的 转发 地 址 设置 为 其 副本 的 地 址 */ 
12 copyCount(r) + 0 /* 已 完成 复制 的 槽 数量 为 堆 */ 
13 lastA & p /* 设置 上 一 个 新 分 配对 象 的 指针 */ 
“ lastC + 0 /* 设置 已 初始 化 槽 的 数量 */ 
15 lastL + n /* 设置 对 象 长 度 */ 
16 return p 


3 atomic Write(p, i, v): 


19 if isPointer(p, i) 

20 makeGrey(pl[i]) /* 将 被 删除 的 引用 着 色 */ 
a pli] + v /* 将 新 值 写 入 对 象 主体 */ 
2 if forwardingAddress(p) # 0 /* 判断 对 象 是 否 已 被 转发 */ 
z while forwardingAddress(p) = 1 

24 /* 等 待 头 域 设 置 为 正确 的 转发 地 址 */ 
5 r + forwardingAddress(p) /* 获取 副本 引用 */ 
26 while copyCount(r) = —(i+1) 

z /* 等 待 复制 线程 完成 目标 槽 的 复制 */ 
2 if isPointer(p, i) 

2 v + makeGrey(v) /* 使 用 已 完成 着 色 的 新 引用 来 更 新 副本 的 对 应 槽 */ 
0 rlii] + v /* 更 新 副本 */ 
a collect(k) /* 执行 kx 个 复制 增 量 */ 
a InitSlot(v): /* 初始 化 上 一 个 新 分 配对 象 的 下 一 个 槽 */ 
4 lastA[lastc] + v /* 初始 化 对 象 主体 */ 
35 if isPointer(lastA, lastC) 
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% v ¢ makeGrey(v) /* 使 用 已 完成 着 色 的 新 引用 来 初始 化 副本 中 对 应 的 构 */ 
37 forwardingAddress(lastA)[lastc++] + v /* 初始 化 副本 */ 
3 collect(k) /* 执行 k 个 复制 增 量 */ 


write 操作 首先 把 将 被 覆盖 (删除) 的 指针 着 为 灰色 (以 保持 快照 可 达 性 )， 然 后 再 将 新 
值 写 和 人 对象 主体 及 其 副本 (如 果 存 在 的 话 ) 中 的 对 应 域 。 当 赋值 器 针对 某 一 灰色 对 象 执行 写 
操作 时 ,“ 指 定 复制 者 ”可 能 正在 复制 相同 的 槽 ， 这 一 “复制 - 写 入 ”竞争 有 可 能 导致 赋值 
器 更 新 的 丢失 ， 即 : 如 果 赋 值 器 更 新 副本 中 对 应 槽 的 操作 发 生 在 复制 线程 从 对 象 主体 读 取 数 
据 之 后 、 将 其 写 入 副本 之 前 ， 则 赋值 器 在 副本 中 的 更 新 操作 将 被 覆盖 。 因 此 ，wzite 操作 不 
仅 要 等 竺 “指定 复制 者 ”完成 对 象 副本 的 创建 ， 还 要 等 待 其 完成 目标 槽 的 复制 。 但 是 ， 如 果 
write 操作 在 “指定 复制 者 ”对 目标 槽 加 锁 之 前 执行 写 人 ， 并 不 会 出 现 问题 ， 此 时 “指定 复 
制 者 ”最 多 只 是 重复 写 人 赋值 器 所 写 人 的 值 。 在 write 操作 中 ， 两 处 可 能 导致 赋值 器 等 待 的 
while 语句 均 存 在 时 间 上 界 ， 第 一 处 的 等 待 时 间 上 界 是 由 “指定 复制 者 ”分 配 副本 的 时 间 决 
定 的 ， 而 第 二 处 的 等 待 时 间 上 界 则 取决 于 “指定 复制 者 ”复制 一 个 槽 的 时 间 。 

算法 之 所 以 使 用 Initsilot 操作 而 非 write 操作 来 设置 对 象 初 值 ， 原 因 是 前 者 的 开销 更 
小 : 首先 ， 未 初始 化 槽 的 值 天 然 为 nu11， 因 而 无 需 为 其 引入 删除 屏障 来 维护 快照 的 完整 性 ; 
其 次 ， 新 分 配对 象 通常 都 会 存在 副本 ， 因 而 无 需 额外 检测 副本 是 否 存在 ; 最 后 ， 算 法 允许 回 
收 器 在 某 一 对 象 尚未 完全 初始 化 的 情况 下 启动 新 一 轮回 收 ， 此 时 回收 器 只 需 复 制 已 经 初始 化 
的 槽 ( 见 算法 19.4 中 的 collectoron 方法 )。 

算法 19.3 展示 了 扮演 回收 器 角色 的 函数 collect (k) ， 该 函数 会 实现 大 个 槽 的 复制 。 共 
享 复制 栈 允 许 处 理 器 之 间 分 摊 复 制 任务 。 为 减少 潜在 开销 较 大 的 sharedPop 操作 的 调用 次 
Be (该 函数 需要 依赖 Petchandadd 原 语 )、 提 升 本 地 优化 几率 、 提 升 回收 工作 的 局 部 性 ， 每 个 
处 理 器 所 处 理 的 工作 大 都 是 从 其 本 地 复制 栈 中 获取 的 (共享 栈 与 本 地 栈 的 相关 操作 参见 算法 
14.8 )。 只 有 当 本 地 栈 为 空 时 ， 处 理 器 才 会 从 共享 栈 中 获取 更 多 的 工作 。 复 制 完 个 槽 之 后 ， 
collect 方法 会 将 剩余 工作 归还 共享 栈 。 需 要 注意 的 是 ， 在 任意 时 刻 , 第 2 ~ 10 行 复制 槽 的 
工作 都 不 可 能 与 第 10 ~ 12 行将 剩余 工作 归还 共享 栈 的 工作 同时 发 生 ， 这 是 由 算法 14.9 所 
介绍 的 “工作 空间 ”机 制 所 保证 的 ， 详 见 14.6 节 。 


算法 19.3 Blelloch 和 Cheng 基于 工作 的 回收 器 : 回收 器 代码 


1 collect(k): 

2 enterRoom() 

3 for i + 0 to k-1 

4 if isLocalStackEmpty() /* KARAZ */ 
5 sharedPop() /* 从 共享 栈 中 获取 部 分 工作 ， 并 压 入 本 地 栈 */ 
6 if isLocalStackEmpty() /* 本 地 栈 依然 为 空 */ 
7 break /* 无 更 多 回收 工作 */ 
8 p + localPop() 

9 copyOneSlot(p) 

10 transitionRooms() 

u sharedPush() /* 将 剩余 工作 迁移 到 共享 栈 */ 
2 if exitRoom() 

3 interrupt(collectorOff) /* 关闭 回收 器 */ 


算法 19.4 展示 了 回收 器 的 启动 (collctoron) 与 停止 (collectoroff) 代码 。 此 处 ， 我 


们 假定 所 有 的 根 都 位 于 每 个 处 理 器 固定 数量 的 寄存 器 REG 中 。synch 方法 所 扮演 的 是 同步 屏 
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障 的 角色 ， 它 可 以 确保 所 有 处 理 器 都 在 该 屏障 汇聚 之 后 再 往 下 执行 ， 其 目的 在 于 确保 个 处 理 
器 能 够 针对 gcon, free, sharedStack 这 三 个 变量 的 值 产 生 一 致 的 判定 。 新 一 轮回 收 周 期 开 
始 后 ， 每 个 处 理 器 首先 会 为 最 后 一 个 新 分 配对 象 创建 副本 ， 并 将 副本 中 头 域 的 值 初始 化 为 
lastC， 这 意味 着 最 后 一 个 新 分 配对 象 中 只 有 已 完成 初始 化 的 域 才 需 复 制 到 副本 中 。 在 回收 
周期 结束 后 ， 寄 存 器 以 及 lasta 都 将 更 新 为 其 目标 对 象 的 副本 地 址 。 

算法 19.4 Blelloch 和 Cheng 基于 工作 的 回收 器 : 回收 器 的 启动 与 停止 
shared gcOn 


shared toTop 
shared free 


shared count ¢ 0 /* 已 完成 同步 的 处 理 器 数量 */ 
shared round + 0 /* 当前 同步 轮 数 */ 
synch(): 


curRound + round 
self + FetchAndAdd(&cnt, 1) + 1 
0 if self = numProc /* 本 轮 同步 完成 ， 重 置 数据 ， 以 便 启 动 下 一 次 回收 */ 


eo ey Oo we BR = 


1 ent ¢ 0 

2 round++ 

13 while round = curRound 

u /* 等 待 ， 直 到 最 后 一 个 处 理 器 修改 round 为 止 */ 

15 

ws collectorOn(): 

J synch() 

18 gcOn + true 

19 toBot, fromBot + fromBot, toBot /* 来 源 空 间 、 目 标 空间 翻转 */ 
20 toTop, fromTop + fromTop, toTop 

a free, sharedStack ¢ toBot, toTop 

2 stackLimit + SharedStack 

z synch() 

a r + allocate(lastL) /* 为 最 后 一 个 新 分 配对 象 创建 副本 */ 
25 forwardingAddress(lastA) + r /* 为 最 后 一 个 新 分 配对 象 设置 转发 地 址 */ 
26 copyCount(r) + lastc /* 设置 待 复制 槽 的 数量 */ 
27 if lastC > 0 

28 localPush(lastA) /* 将 剩余 的 复制 工作 压 入 本 地 复制 栈 */ 
» for i + 0 to length(REG) /* 将 根 着 为 灰色 */ 
30 if isPointer(REG, i) 

al makeGrey(REG[i]) 

2 sharedPush() /* 将 本 地 复制 栈 中 的 对 象 迁 移 到 共享 栈 */ 
33 synch() 

3 collectorOff£(): 

% synch() 

37 for i + 0 to length(REG) /* 将 根 着 为 灰色 */ 
38 if isPointer(REG, i) 

3 REG[i] + forwardingAddress(REG[i]) /* 对 根 进行 转发 */ 
w lastA + forwardingAddress(lastA) 

“a gcOn + false 

2 synch() 


其 他 具有 实际 意义 的 改进 。 实 时 副本 复制 算法 的 原始 版 本 [Blelloch and Cheng, 1999] 
及 其 后 续 改 进 版 本 [Cheng and Blelloch, 2001; Cheng, 2001] 都 针对 上 述 算法 做 出 了 不 少 具 
有 实际 意义 的 改进 : 为 避免 在 每 次 allocate 过 程 中 (第 3247) 调用 Fetchanaaaa 操作 ， 每 
个 处 理 器 可 以 使 用 7.7 节 所 描述 的 本 地 分 配 缓冲 区 策略 进行 分 配 ; 在 makeGrey 方法 中 ， 由 
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于 处 理 器 必然 知道 其 本 地 分 配 缓冲 区 中 下 一 个 将 要 分 配 的 对 象 的 地 址 ， 所 以 算法 可 以 使 用 [382] 
CompareAndswap 操作 来 替代 Testandset, ， 从 而 避免 了 单纯 的 自 旋 操作 。 其 他 改进 措施 包括 : 
将 New 和 InitLoc 方法 中 的 回收 工作 延迟 到 每 个 本 地 分 配 缓冲 区 都 被 (小 ) 对 象 填 满 时 ， 从 
而 避免 了 New 方法 中 两 次 内 存 分 配 的 开销 ( 即 对 象 主体 及 其 副本 ) ; 使 用 工作 空间 同步 机 制 
将 write 操作 原子 化 ( 即 在 任意 时 刻 ， 只 有 一 个 处 理 器 可 以 进入 “ 写 工作 空间 ”)。 

时 间 与 空间 上 界 。 算 法 付出 了 相当 大 的 努力 来 确保 每 个 回收 增 量 的 工作 存在 上 界 ， 从 而 
使 得 系统 在 垃圾 回收 方面 的 时 间 和 空间 开销 存在 精确 的 上 界 。Blelloch 和 Cheng[1999] 已 经 
证 明 ， 算 法 所 需 空间 的 上 界 为 2 (R (14+ 2/k)+N+5PD) 个 字 ， 其 中 PP 为 处 理 器 数量 ，R 为 
一 次 计算 的 最 大 可 达 空 间 ( 即 从 根 集合 可 达 的 字 的 数量 )，N 为 最 大 可 达 对 象 的 数量 ，D 为 
对 象 的 最 大 深度 , 大 为 系统 每 分 配 出 一 个 字 的 同时 需要 完成 多 少 个 字 的 复制 ， 该 参数 可 以 对 
系统 在 时 间 和 空间 方面 的 开销 进行 平衡 。 他 们 同时 指出 ， 赋 值 器 线程 的 最 大 停顿 时 间 不 会 超 
过 某 一 正比 于 大 的 值 (以 非 阻 塞 机 器 指令 数 为 单位 )。 由 于 makeGrey 方法 一 次 仅 处 理 灰色 波 
面 中 的 一 个 域 而 非 一 个 对 象 ， 所 以 即使 对 于 大 对 象 以 及 数组 ， 该 算法 的 时 空 上 限 也 能 得 到 
保证 。 

性 能 。Blelloch 和 Cheng[2001] 在 ML (一 种 静态 类 型 函数 式 语言 ) 中 实现 了 该 回收 器 。 
ML 应 用 程序 通常 具有 极 高 的 内 存 分 配 率 ， 这 对 大 多 数 回收 器 而 言 这 都 是 一 项 挑战 。 他 们 基 
于 Sun Enterprise 10000 (包含 64 个 处 理 器 ， 每 个 处 理 器 的 时 钟 频 率 大 约 为 数 百 兆 赫 效 ) 进 
行 实验 ， 结 果 表 明 ， 如 果 仅 使 用 单 处 理 器 ,该 回收 器 的 开销 平均 会 比 对 等 的 万 物 静 止 式 回收 
器 高 出 51% (基于 多 个 基准 程序 测试 得 出 )， 其 中 39% 的 开销 源 于 对 并 行 回收 的 支持 ，12% 
的 开销 源 于 对 并 发 回收 的 支持 。 当 可 用 处 理 器 数量 扩大 到 32 个 时 ， 回 收 器 表现 出 较 好 的 递 
增 适 应 性 (17.2 倍 的 加 速 )， 而 赋值 器 的 递增 适应 性 则 表现 较 差 ( 9.2 倍 的 加 速 )， 整 个 系统 
在 可 用 处 理 器 数量 为 8 时 表现 最 佳 ， 此 时 回收 器 和 赋值 器 分 别 得 到 了 7.8 倍 和 7.2 倍 的 加 速 。 
以 10ms 作为 测量 单位 ， 所 有 万 物 静 止 式 回 收 器 的 最 小 赋值 器 使 用 率 均 为 零 或 者 接近 于 零 ， 
相 比 之 下 ， 当 k=2 时， 该 回收 器 的 最 小 赋值 器 使 用 率 可 以 达到 10%， 而 当 大 = 1.2 时 ， 可 以 
达到 15%。 该 回收 器 的 最 大 停顿 时 间 大 约 为 3 ~ 4ms。 


19.3.2” 非 均匀 工作 负载 的 影响 


对 于 基于 工作 的 实时 垃圾 回收 调度 策略 ， 其 所 面临 的 最 大 问题 是 : 赋值 器 与 回收 器 操作 
之 间 的 紧 耦 合 导致 整个 系统 的 最 小 赋值 器 使 用 率 并 不 均匀 。 基 于 工作 的 复制 式 回收 器 必须 假 
定 在 最 差 情 况 下 所 有 赋值 器 均 在 执行 堆 操作 ， 此 时 对 于 Baker[1978] 回收 器 而 言 ， 读 取 一 个 
指针 槽 可 能 就 需要 复制 其 目标 对 象 。 对 于 Lisp 的 cons 单元 ， 其 复制 开销 是 固定 的 ， 而 对 于 
数组 等 变 长 对 象 ， 复 制 整个 对 象 的 开销 便 可 能 成 为 问题 。 分 配 过 程 同样 会 涉及 固定 量 的 回收 
工作 。 在 回收 周期 开始 时 ， 回 收费 还 需要 对 来 源 空间 和 目标 空间 进行 翻转 、 扫 描 根 并 复制 其 
目标 对 象 ， 这 通常 会 涉及 全 局 变量 (在 特定 程序 中 数量 存在 上 界 ) 以 及 局 部 (线程 栈 ) 变量 
(其 上 界 为 将 线程 栈 填 满 )。 总 之 ， 回 收 器 可 能 遭遇 的 最 差 情 况 与 一 般 情况 的 差别 太 大 ， 以 至 
于 最 差 情况 下 的 执行 时 间 分 析 对 实际 情况 下 的 可 调度 性 分 析 并 无 指导 意义 。 
研究 者 们 提出 了 多 种 策略 来 遏制 基于 工作 的 回收 调度 策略 在 最 差 情 况 下 的 回收 开销 。 为 
了 限制 栈 扫描 工作 量 ，Cheng 和 Blelloch[2001] 将 栈 划 分 为 固定 大 小 的 子 栈 (stacklet)， 回 收 
器 在 翻转 过 程 中 只 需要 扫描 活动 赋值 器 线程 最 顶端 的 子 栈 ， 而 其 他 子 栈 则 将 延迟 到 适当 的 时 |383 
机 进行 扫描 。 为 阻止 赋值 器 线程 返回 到 未 经 扫描 的 子 栈 中 ， 该 策略 需要 引入 栈 屏 障 来 拦截 赋 [384 
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值 器 线程 的 退 栈 操作 ， 并 迫使 赋值 器 线程 在 返回 到 未 经 扫描 的 子 栈 之 前 对 其 进行 扫描 。 对 于 
赋值 器 线程 尝试 返回 到 正在 由 回收 器 扫描 的 子 栈 这 一 情况 ，Detlefs[2004b] 提出 了 两 种 解决 
方案 : 一 是 赋值 器 等 待 回收 器 工作 完成 ， 二 是 回收 器 中 止 对 该 子 栈 的 扫描 ， 并 将 扫描 工作 交 
由 赋值 器 完成 。 

类 似 地 ， 为 限制 回收 器 在 推进 回收 波 面 时 的 扫描 /复制 工作 粒度 ， 可 以 将 变 长 对 象 拆 分 
为 固定 大 小 的 子 对 象 (oblet)、 将 数组 拆 分 为 子 数 组 ( arraylet)。 当 然 ， 这 些 非 标准 的 表现 形 
式 要 求 系统 在 访问 对 象 时 、 对 数组 元 素 执行 索引 操作 时 做 出 相应 的 调整 ， 这 一 额外 的 间接 访 
问 模 式 进一步 增加 了 系统 在 时 间 和 空间 方面 的 开销 [Siebert, 1998, 2000, 2010]. 

尽管 研究 者 们 提出 了 多 种 限制 回收 工作 粒度 的 策略 ， 但 Detlefts 依然 认为 ， 不 均匀 的 工 
作 负 载 将 是 压 垮 纯粹 基于 工作 的 调度 策略 的 最 后 一 根 稻草 。 例 如 ， 在 Baker 式 并 发 复制 回收 
器 中 ， 赋 值 器 的 操作 开销 会 在 回收 周期 的 不 同时 段 存在 显著 差别 : 在 翻转 操作 之 前 ， 赋 值 器 
仅 需 要 在 偶尔 发 生 的 分 配 过 程 中 付出 一 些 额 外 开销 (目的 是 确保 回收 波 面向 前 推进 )， 此 时 
读 操作 在 大 多 数 情况 下 都 会 访问 已 经 完成 复制 的 对 象 ; 而 在 回收 器 执行 翻转 且 仅 完成 赋值 器 
根 的 扫描 之 后 ， 由 于 几乎 每 个 读 操作 都 需要 复制 其 目标 对 象 ， 所 以 读 操作 的 平均 开销 可 能 会 
接近 理论 上 的 最 大 值 。 类 似 地 ， 在 Blelloch 和 Cheng[1999] 的 回收 器 中 ， 尽 管 写 操作 的 发 生 
频率 远 小 于 读 操 作 ， 但 不 同时 段 的 写 操作 需要 为 目标 对 象 创建 副本 的 概率 也 存在 很 大 差别 。 

在 工作 负载 不 均衡 的 情况 下 ， 尽 管 基于 工作 
的 调度 策略 依然 可 以 确保 停顿 时 间 的 短暂 性 与 可 
预测 性 ， 但 由 于 回收 工作 的 频率 和 持续 时 间 依 然 
可 能 降低 赋值 器 的 使 用 率 。 以 图 19.3 为 例 ， 尽 管 ” 图 19.3 即使 回收 停顿 时 间 很 得， 赋值 器 使 用 





回收 器 可 以 确保 回收 停顿 时 间 不 大 于 lms， 但 赋 率 依然 可 能 很 低 。 此 时 绝 大 多 数 CPU 
值 器 却 只 能 利用 两 次 回收 之 间 0.1ms 的 间隙 进行 时 间 被 回收 器 占用 (图 中 的 灰色 部 
工作 。 这 种 情况 下 ， 即 使 回收 需 能 够 保证 可 预测 分 )， 而 赋值 器 只 能 在 回收 停顿 的 间 附 
的 短 时 停顿 ， 留 给 赋值 器 的 执行 时 间 也 不 足以 满 (图 中 的 白色 部 分 ) 进行 工作 

足 实 时 系统 的 时 限 要 求 。 


基于 工作 的 调度 策略 不 仅 可 能 导致 赋值 器 操作 的 额外 负载 不 均衡 ， 而 且 平 均 负载 与 最 差 
情况 下 的 负载 情况 存在 较 大 差异 ， 这 便 导 致 对 基于 工作 的 调度 策略 进行 最 差 执 行 时 间 的 分 析 
意义 不 大 : 为 垃圾 回收 超 量 分 配 不 必要 的 处 理 器 资源 必然 会 降低 赋值 器 使 用 率 。 

在 非 复制 式 并 发 回收 器 中 ， 赋 值 器 写 屏障 仅 需要 简单 地 将 来 源 对 象 或 者 新 / 上 昌 目 标 对 象 
着 色 ， 因 而 赋值 器 堆 访 问 操作 的 开销 相对 较 小 且 有 界 。 但 是 ， 由 于 分 配 过 程 会 爆发 式 地 出 
现 ， 所 以 基于 工作 的 调度 策略 仍然 可 能 导致 赋值 器 的 垃圾 回收 开销 存在 较 大 的 不 均衡 。 

因此 ， 更 加 高 级 的 调度 策略 并 不 会 将 回收 工作 完全 当 作 赋值 器 的 额外 开销 来 对 待 ， 而 是 
将 其 当 作 另 一 种 必须 完成 的 实时 任务 来 进行 调度 。 如 此 一 来 ， 最 差 情况 下 的 赋值 器 执行 时 间 
分 析 才 会 与 真正 的 赋值 器 平均 性 能 接近 ， 从 而 达到 更 好 的 处 理 器 使 用 率 。 对 于 某 些 发 生 频 率 
较 低 但 开销 较 大 的 操作 〈 例 如 翻转 赋值 器 )， 回 收 器 只 需 确 保 其 执行 时 间 足 够 短 ， 且 能 够 在 
回收 器 时 间 片 内 执行 完毕 即 可 。 


19.4 基于 间隙 的 实时 回收 


针对 实时 回收 器 的 调度 问题 ，Henriksson 认为 ， 垃 圾 回收 工作 应 当 避 开 高 优先 级 (实时 ) 
任务 的 执行 [Magnusson and Henriksson, 1995; Henriksson，1998]， 即 只 有 当 系 统 中 不 存在 
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等 待 执行 的 高 优先 级 任务 时 ， 垃 圾 回收 工作 才 可 以 执行 。 高 优先 级 任务 的 内 存 分 配 操作 不 会 
承担 任何 回收 相关 开销 ， 而 低 优 先 级 任务 的 分 配 过 程 则 需要 承担 一 定 的 垃圾 回收 任务 。 系 统 
中 还 存在 一 种 特殊 的 任务 ， 即 高 优先 级 垃圾 回收 (high-priority garbage collection) 任务 ， 其 
目的 在 于 完成 高 优先 级 任务 执行 过 程 中 所 忽略 的 回收 相关 工作 ， 例 如 应 当 由 高 优先 级 任务 在 
分 配 过 程 中 执行 的 回收 工作 。 高 优先 级 回收 任务 的 优先 级 低 于 高 优先 级 任务 ， 但 却 高 于 低 优 
先 级 任务 。 回 收 器 必须 确保 系统 中 有 足够 的 已 初始 化 空闲 内 存 ， 并 且 能 够 满足 高 优先 级 任务 
的 内 存 分 配 要求 。 因 此 ， 回 收 相 关 工 作 完 全 是 在 实时 任务 的 调度 间 院 中 执行 的 。 

回收 器 将 扒 布 置 为 两 个 半 区 的 形式 ， 如 图 19.4 所 示 。 赋 值 器 将 从 目标 空间 的 顶端 分 配 
对 象 ， 即 指针 top 所 指向 的 位 置 ; 得 到 迁移 的 对 象 将 被 置 于 目标 空间 的 底部 ， 即 指针 bottom 
所 指向 的 位 置 。 回 收 器 使 用 传统 的 Cheney 扫描 策略 来 完成 所 有 已 迁移 对 象 的 扫描 ， 并 将 它 
们 所 引用 的 来 源 空间 对 象 迁 移 到 目标 空间 。 当 低 优 先 级 线程 在 目标 空间 顶部 分 配 新 对 象 时 ， 
其 会 增 量 式 地 执行 一 些 迁 移 工作 。 指 针 scan 能 够 反映 出 回收 器 扫描 已 迁移 对 象 的 进度 。 


fromBot fromTop 





图 19.4 Henriksson 基于 间隙 的 回收 器 : 堆 结 构 


Henriksson 的 回收 器 使 用 Brooks 间接 屏障 来 拦截 所 有 堆 访 问 操作 ， 同 时 还 使 用 Dijkstra 
插入 屏障 来 确保 新 目标 对 象 必然 位 于 目标 空间 (如果 不在 ， 则 将 其 复制 中 )。 该 屏障 可 以 确 
保 回收 器 满足 强 三 色 不 变 式 ， 即 任何 目标 空间 对 象 均 不 包含 来 源 空间 对 象 的 引用 。 但 是 ， 
Henriksson 并 不 要 求 高 优先 级 任务 在 写 屏障 中 复制 完整 的 对 象 ， 而 是 采用 懒惰 迁移 策略 ， 
即 : 写 屏 障 仅 需 要 简单 地 为 目标 空间 副本 分 配 空间 ， 但 不 需要 将 来 源 空 间 对 象 的 内 部 数据 复 
制 到 其 中 。 垃 圾 回收 器 终究 会 得 到 执行 (可 能 是 以 高 优先 级 回收 任务 的 方式 执行 ， 也 可 能 在 
低 优 先 级 任务 的 分 配 过 程 中 得 到 执行 )， 当 其 扫描 到 目标 空间 尚未 填充 的 副本 时 会 完成 被 延 
迟 的 复制 工作 。 回 收 器 在 扫描 目标 空间 副本 之 前 ， 必 须 先 将 来 源 空间 主体 中 的 数据 复制 到 其 
中 。 为 避免 赋值 器 访问 尚未 完成 复制 的 空 目 标 空间 副本 ，Henriksson 对 Brooks 写 屏障 进行 
扩展 ， 即 在 每 个 目标 空间 外 壳 中 记录 一 个 指向 其 在 来 源 空间 原始 对 象 的 反 向 指针 。 这 一 懒惰 
迁移 策略 如 图 19.5 所 示 。 

算法 19.5 与 算法 19.6 描述 了 回收 器 的 大 体 执行 流程 ， 整 个 回收 器 与 算法 17.1 所 描述 
的 并 发 复制 回收 器 十 分 类 似 ， 但 该 回收 器 额外 使 用 的 Brooks 式 间接 屏障 放宽 了 赋值 器 的 目 
标 空间 不 变 式 的 要 求 ， 同 时 写 屏 障 也 会 将 复制 对 象 内 部 数据 的 任务 推迟 给 回收 器 完成 与 
Sapphire 回收 器 类 似 )。 需 要 注意 的 是 ， 即 使 赋值 器 依然 工作 在 来 源 空 间 ， 回 收 器 仍 可 以 借 
助 于 临时 性 的 toaddress 指针 完成 目标 空间 副本 中 引用 的 转发 ， 因 为 toaddress 指针 所 占用 
的 指针 域 与 forwardingaAddress 头 域 是 两 个 不 同 的 域 。 

回收 器 本 身 以 协 程 (coroutine) 方式 实现 ， 因 此 垃圾 回收 任务 与 低 优先 级 赋值 器 任务 
可 以 通过 代码 中 的 yiela 点 来 实现 交替 执行 ， 而 高 优先 级 任务 在 任意 时 刻 都 可 以 通过 抢占 
(preempt) 的 方式 重新 获取 程序 的 控制 权 。 如 果 抢 占 行 为 发 生 在 回收 器 复制 某 一 对 象 的 过 程 
中 ,， 则 复制 过 程 会 简单 地 中 止 (abort)， 并 在 回收 器 恢复 执行 时 重新 启动 。 另 外 ，Henriksson 
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假定 回收 器 是 基于 单 处 理 器 平台 执行 的 ， 因 而 通过 禁止 调度 器 中 断 的 方式 便 足 以 实现 原子 
操作 。 





a) 在 高 优先 级 任务 执行 By Ax 之 前 ， 写 屏障 捕获 到 这 一 操作 。 
此 时 对 象 C 尚未 得 到 提升 


目标 空间 


b) 回收 器 先 为 对 象 C 在 目标 空间 中 预 留 空间 ， 然 后 再 向 其 中 写 人 
临时 指针 toadaress (虚线 所 示 )， 该 指针 指向 其 在 目标 空间 中 的 
保留 区 域 ， 从 而 避免 在 目标 空间 中 为 其 创建 多 个 保留 区 域 。 此 时 对 
象 C 的 转发 指针 将 指向 其 自身 ， 从 而 避免 赋值 器 访问 到 尚未 初始 化 
的 保留 区 域 | 

来 源 空 间 





目标 空间 





c) 在 高 优先 级 任务 的 执行 间隙 ， 回 收 器 将 对 象 C 复制 到 其 在 目标 
空间 的 保留 区 域 ， 同 时 将 其 转发 指针 设置 为 目标 空间 副本 的 引用 。 
当 回 收 器 扫描 到 对 象 A 之 后 ，A.x 将 得 到 转发 


图 19.5 Henriksson 基于 间隙 的 回收 器 : 懒惰 迁移 
见 Henriksson [1998] 一 书 ， 经 许可 后 转载 


算法 19.5 Henriksson 基于 间隙 的 回收 器 


1 Coroutine collector: 

2 loop 

3 while bottom < top /* 目标 空间 尚未 填 满 */ 
4 Yield /* 转移 到 赋值 器 执行 */ 
5 flip() 

6 for each fld in Roots 

7 process(fld) 

8 if not behind() 

9 yield 

10 while scan < bottom 

u scan + scanObject(scan) 
2 if not behind() 

13 yield 


转移 到 赋值 器 执行 */ 


As 
* 


转移 到 赋值 器 执行 */ 


Se 
* 
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flip(): 
toBot, fromBot + fromBot, toBot 
toTop, fromTop 全 fromTop, toTop 
bottom, top + toBot, toTop 
scan + bottom 


scanObject(toRef): 
fromRef + forwardingAddress(toRef) 
move(fromRef, toRef) 
for each fld in Pointers(toRef) 
process(fld) 
forwardingAddress(fromRef) + toRef 
return toRef + size(toRef) 


process(fld): 
fromRef + xfld 
if fromRef # null 


*fld + forward(fromRef) /* 使 用 目标 空间 引用 进行 更 新 */ 
forward(fromRef): 
toRef + forwardingAddress(fromRef) 
if toRef = fromRef /* 尚未 得 到 迁移 */ 
toRef + toAddress(fromRef) 
if toRef = null /* 并 未 得 到 迁移 (依然 处 于 未 标记 状态 ) */ 


toRef + schedule(fromRef) 
return toRef 


schedule(fromRef): 
toRef + bottom 
bottom + bottom + size(fromRef) 
if bottom > top 
error "Out of memory" 
toAddress(fromRef) + toRef /* 为 对 象 的 迁移 做 调度 准备 (进行 标记 ) */ 


return toRef 


算法 19.6 Henriksson 基于 间隙 的 回收 器 : 赋值 器 操作 


atomic Read(src, i): 
src + forwardingAddress(src) /* Brooks 间接 屏障 */ 
return src[i] 


atomic Write(src, i, ref): 
src + forwardingAddress(src) /* Brooks 间接 屏障 */ 
if ref in fromspace 
ref + forward(ref) 
srcli] + ref 


atomic Newyighpriority(size): 
top + top 一 size 
toRef + top 
forwardingAddress(toRef) + toRef 
return toRef 


atomic Newzowpriority(size): 
while behind() 
yield /* 唤醒 回收 器 */ 
top + top — size 
toRef + top 
if bottom > top 


345 


346 x 19 F 


23 error "Out of memory" 
a forwardingAddress(toRef) + toRef 
25 return toRef 


19.4.1 回收 工作 的 调度 


回收 器 在 每 个 回收 增 量 中 所 需 执 行 的 工作 量 (通过 behind 方法 进行 控制 ) 必须 确保 在 目 
标 空间 被 填 满 之 前 ， 来源 空 间 中 的 存活 对 象 全 部 都 完成 迁移 ， 这 样 才能 确保 一 个 回收 周期 的 
结束 。 我 们 约定 : 在 最 差 情 况 下 ,来 源 空 间 中 需要 迁移 的 存活 对 象 总 量 (以 需要 处 理 的 字 节 
数 计算 ) 和 需要 为 高 优先 级 线程 初始 化 的 内 存 总 量 (以 满足 其 在 一 个 回收 周期 内 的 内 存 分 配 
需求 ) 之 和 为 Wors 翻转 完成 之 后 ， 至 少 有 Pain 字 节 的 内 存 得 到 释放 且 可 以 重新 用 于 分 配 。 
EME, Woa 表示 在 一 个 回收 周期 内 回收 器 需要 处 理 的 最 大 工作 量 ，Fi, 表示 回收 周期 结 
束 后 回收 器 至 少 要 释放 的 内 存量 。 因 此 ， 我 们 将 最 小 回收 率 (minimum GC ratio, GCRmin) 
定义 为 : 


GCR, = mu 


当前 回收 率 ( current GC ratio, GCR) 为 回收 器 所 执行 的 回收 工作 量 W 5 A os lal PP 
对 象 总 量 4 的 比值 ， 即 : 


GCR a”. 
A 
赋值 器 的 分 配 操作 会 增加 4 的 值 ， 而 回收 工作 则 会 增加 丈 的 值 。 回 收 器 必须 完成 足够 多 的 
回收 工作 ， 以 确保 当前 回收 率 不 小 于 最 小 回收 率 ， 即 GCR  GCR ws。 这 一 条 件 可 以 确保 即 
使 是 在 最 差 情况 下 ， 来源 空 间 也 可 以 得 到 清空 ( 即 所 有 存活 对 象 都 得 到 迁移 )。 
由 于 高 优先 级 回收 任务 的 存在 ， 低 优先 级 任务 的 内 存 分 配 速度 可 以 在 一 定 程 度 上 得 到 控 
制 ， 从 而 确保 当前 回收 率 GCR 不 会 太 低 〈 即 低 于 GCR,)。 分 配 过 程 需要 处 理 的 回收 工作 
上 限 正 比 于 新 分 配对 象 的 大 小 。 
如 果 某 一 高 优先 级 任务 在 回收 器 即将 进行 半 区 翻转 之 前 得 到 激活 ， 则 目标 空间 中 的 剩余 
内 存 可 能 会 无 法 同时 容纳 高 优先 级 任务 所 分 配 的 最 后 一 个 对 象 以 及 最 后 一 个 需要 从 来 源 空间 
中 迁 出 的 对 象 。 因 此 ， 回 收 器 必须 确保 在 bottom 和 top 之 间 有 足够 大 的 空间 来 容纳 这 些 对 
象 ， 确 切 地 讲 ， 这 块 空间 必须 大 到 足以 容纳 高 优先 级 任务 在 当前 回收 周期 结束 之 前 新 分 配 的 
所 有 对 象 。 为 达到 这 一 目的 ， 应 用 程序 的 开发 者 必须 事先 评估 出 最 差 情 况 下 高 优先 级 任务 的 
内 存 分 配 需 求 、 其 执行 周期 以 及 每 个 周期 的 最 差 执 行 时 间 。Henriksson 认为 ， 由 于 控制 系统 
中 的 高 优先 级 任务 通常 快速 、 短 小 ， 且 其 几乎 没有 内 存 分 配 需求 ， 所 以 这 一 评估 任务 对 于 开 
发 者 来 讲 难度 很 低 。Henriksson 还 提出 一 种 用 于 确定 程序 可 调度 性 以 及 为 高 优先 级 任务 预 留 
内 存 总 量 的 分 析 框 架 ， 该 框架 的 输入 参数 为 程序 的 各 种 执行 参数 ， 例 如 任务 时 限 、 任 务 周 
期 等 。 


19.4.2 ”执行 开销 


高 优先 级 任务 的 回收 相关 开销 存在 严格 上 界 ， 即 内 存 分 配 、 指 针 解 引用 、 指 针 存 储 操作 
所 需 的 指令 数量 都 是 有 限 的 。 当 然 ， 仅 仅 凭借 指令 数量 来 评估 执行 时 间 通 常 并 不 可 靠 ， 因为 
处 理 器 可 能 还 会 受到 高 速 缓存 不 命中 等 问题 的 影响 。 最 差 执行 时 间 分 析 要 么 必须 假定 所 有 高 
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速 缓存 都 不 可 用 (从 而 拖 慢 所 有 加 载 操作 的 执行 速度 )， 要 么 必须 从 经 验 出 发 ， 确 保 系统 能 
够 在 预定 负载 下 满足 时 限 要 求 。 

堆 访 问 操作 的 额外 开销 为 一 条 转发 指针 访问 指令 ， 外 加 关中 断 操作 的 开销 。 最 差 情况 下 
的 指针 写 操作 开销 包括 对 目标 对 象 进行 标记 ， 以 便 其 在 后 续 过 程 中 得 到 迁移 ， 这 一 过 程 大 约 
需要 20 条 指令 。 分 配 过 程 只 需要 简单 地 移动 阶 路 指针 并 初始 化 对 象 头 部 〈 包 括 设置 转发 指 
针 以 及 其 他 头 部 信息 )， 其 执行 开销 大 约 为 10 条 指令 。 

低 优 先 级 任务 的 堆 访问 操作 以 及 指针 存储 操作 也 存在 相同 的 开销 。 在 最 差 情 况 下 ， 分 配 
过 程 需 要 执行 的 回收 工作 量 正 比 于 新 分 配对 象 大 小 。 分 配 操作 所 能 遭遇 的 最 差 情 况 取决 于 
对 象 可 能 占用 的 最 大 空间 、 堆 空间 大 小 、 最 大 存活 对 象 集合 、 给 定 回收 周期 内 的 回收 工作 量 
ER, 

高 优先 级 任务 的 最 差 延 迟 取 决 于 回收 器 完成 〈 或 者 中 止 ) 原子 操作 所 需 的 时 间 ， 这 一 时 
间 通 常 较 短 且 存在 上 界 。Henriksson 指出 ， 与 完成 原子 操作 的 时 间 相 比 ， 执 行 延迟 在 更 大 程 
度 上 取决 于 系统 完成 上 下 文 切换 所 需 的 时 间 。 


19.4.3 ”开发 者 需要 提供 的 信息 


为 确保 回收 工作 不 会 干扰 高 优先 级 任务 的 执行 ， 开 发 者 必须 为 回收 器 提供 足够 多 的 信息 
以 反映 应 用 程序 以 及 高 优先 级 任务 的 特征 ， 回 收 器 可 以 根据 这 些 信息 计算 出 最 小 回收 率 ， 同 
时 在 程序 执行 过 程 中 跟踪 当前 回收 率 。 每 种 高 优先 级 任务 的 执行 周期 以 及 最 差 执行 时 间 是 回 
收 器 必须 掌握 的 信息 ， 除 此 之 外 ， 还 要 掌握 它们 在 一 个 执行 周期 内 的 最 大 内 存 需 求 量 ， 回 收 
器 据 此 才能 计算 出 满足 高 优先 级 任务 分 配 要 求 的 最 小 内 存量 。 开 发 者 同时 还 必须 对 应 用 程序 
的 最 大 存活 内 存量 进行 评估 。 通 过 上 述 各 项 参数 ， 便 可 进一步 针对 高 优先 级 实时 任务 进行 程 
序 的 最 差 执行 时 间 分 析 、 可 调度 性 分 析 。Henriksson[1998] 提供 了 更 多 细节 。 


19.5 ”基于 时 间 的 实时 回收 : Metronome 回收 器 


基于 间隙 的 调度 策略 要 求 高 优先 级 实时 任务 之 间 存 在 足够 长 的 间隙 来 执行 回收 任务 ， 而 
基于 时 间 的 调度 (time-based schedule) 策略 则 将 最 小 赋值 器 使 用 率 作为 调度 问题 的 一 个 输入 
参数 ， 也 就 是 说 ， 调 度 器 不 仅 要 确保 实时 任务 满足 系统 的 时 限 要 求 ， 也 要 保证 系统 的 最 小 赋 
值 器 使 用 率 。 基 于 时 间 的 调度 策略 首先 在 面向 Java 的 Metronome 实时 垃圾 回收 器 中 得 到 应 
用 [Bakon 等 ，2003al]， 它 是 一 个 增 量 式 的 标记 -=- 清扫 回收 器 ， 并 会 在 必要 时 进行 局 部 整理 
以 避免 堆 的 碎片 化 9 。 该 回收 器 使 用 删除 写 屏障 来 维护 弱 三 色 不 变 式 ， 即 回收 器 会 将 写 操作 
所 覆盖 的 指针 域 的 目标 对 象 标记 为 存活 。 标 记过 程 中 新 分 配 的 对 象 标 记 为 黑色 。 与 Blelloch 
和 Cheng[1999] 的 副本 复制 回收 器 相 比 ， 该 回收 器 写 操作 的 标记 开销 更 低 〈 同 时 也 具有 更 高 
的 可 预测 性 )。 

在 完成 清扫 并 将 垃圾 回收 之 后 ，Metronome 回收 器 会 视 情况 决定 是 否 需 要 进行 整理 ， 整 
理 的 目的 在 于 确保 在 下 一 个 回收 周期 结束 之 前 ， 堆 中 存在 足够 多 的 连续 空闲 内 存 来 满足 赋值 
器 的 分 配 需求 。 与 Henriksson [1998] 类 似 ，Metronome 回收 器 也 使 用 Brooks 式 转 发 指针 ， 
尽管 它 会 给 赋值 器 的 每 次 堆 访 问 操 作 带 来 额外 的 间接 负担 。 


© Metronome 的 中 文 含义 为 “节拍 器 "， 象 征 着 赋值 器 和 回收 器 之 间 的 时 间 分 配 可 以 像 节拍 器 一 样 精确 一 一 译 
者 注 。 
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19.5.1 赋值 器 使 用 率 


Metronome 回收 器 可 以 确保 赋值 器 在 整个 系统 的 执行 时 间 中 至 少 占有 某 一 预定 的 比例 ， 
而 其 他 执行 时 间 则 可 以 由 回收 器 自由 支配 ， 即 回收 器 可 以 将 自己 不 需要 的 执行 时 间 让 给 赋 
值 器 。Metronome 回收 器 能 够 确保 回收 停顿 时 间 的 均匀 性 、 短 暂 性 ， 进 而 能 够 为 赋值 器 提 
供 比 传统 回收 器 更 细 粒 度 的 使 用 率 保障 。Metronome 回收 器 的 默认 设置 是 : 在 10ms 内 ， 以 
500 ws 作为 最 小 时 间 单 元 ， 确 保 最 小 赋值 器 使 用 率 达 到 70%， 也 可 以 对 这 一 目标 进行 调整 ， 
以 便 进一步 满足 系统 的 空间 限制 。 图 
19.6 展示 了 Metronome 回收 器 的 一 个 为 
期 20ms 的 回收 周期 ， 回 收费 将 系统 的 
执行 时 间 划 分 为 500 us 的 时 间 片 ， 同 时 
确保 在 任意 一 个 时 长 为 10ms 的 滑动 窗 


口内 ， 赋 值 器 回收 率 均 不 低 于 70%， 即 : 
在 任意 一 个 10ms 的 时 间 窗 内 ， 回 收 器 图 19.6 Metronome 回收 器 中 的 时 间 片 分 配 情况 。 灰 色 


元 为 回收 器 占用 的 时 间 片 ， 
最 多 占据 6 个 时 间 片 ， 而 赋值 器 则 至 少 单元 为 回收 器 占用 的 时 间 片 ， 白 色 为 赋值 器 占 


占据 14 个 时 间 片 。 即 使 调度 器 连续 为 回 EE 

收 器 分 配 两 个 时 间 片 ， 系 统 仍 能 够 达到 预定 的 最 小 赋值 器 使 用 率 ， 但 为 了 最 大 限度 地 降低 个 
顿时 间 ， 调 度 器 在 为 回收 器 分 配 一 个 时 间 片 之 后 ， 紧 接着 会 为 赋值 器 分 配 至 少 一 个 时 间 片 ， 
从 而 确保 回收 停顿 时 间 不 会 超过 一 个 时 间 片 。 如 果 允 许 最 小 赋值 器 使 用 率 小 于 50%， 则 在 某 
一 时 间 窗 口内 ， 调 度 器 分 配给 回收 器 的 时 间 片 就 有 可 能 超过 赋值 器 ， 此 时 调度 器 便 有 可 能 为 
回收 器 分 配 两 个 连续 的 时 间 片 。 

当 回 收 器 尚未 激活 时 ， 赋 值 器 便 可 占据 所 有 的 时 间 片 ， 其 使 用 率 将 达到 100%。 因 此 ， 
赋值 器 使 用 率 可 能 会 由 于 回收 器 的 执行 而 出 现 周期 性 的 下 降 ， 但 无 论 如 何 也 不 会 低 于 预 设 的 
最 小 赋值 器 使 用 率 。 图 19.7 从 宏观 角度 展示 了 每 个 回收 周期 中 赋值 器 使 用 率 的 下 降 。 
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图 19.7 Metronome 回收 器 的 整体 赋值 器 使 用 率 


图 19.8 展示 了 图 19.6 所 示 回 收 周 期 内 任意 时 刻 的 赋值 器 使 用 率 (灰色 条 带 表示 回收 吕 
所 占用 的 时 间 片 ， 白 色 条 带 为 赋值 器 的 )。 对 于 x 轴 上 的 任意 时 间 点 +:， 其 所 对 应 的 值 表示 以 
1 作为 起 点 的 、 长 度 为 10ms 的 时 间 窗 内 的 赋值 器 使 用 率 。 需 要 注意 的 是 ， 图 19.6 中 的 调度 
器 可 以 保证 回收 周期 内 的 赋值 器 使 用 率 精 确 达 到 70% ， 而 真正 的 调度 器 却 通常 无 法 达到 这 样 
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的 精确 。 实 际 应 用 中 的 调度 器 通常 会 在 赋值 器 使 用 率 接近 预定 的 最 小 值 时 进行 回调 ， 从 而 避 
免 赋值 器 使 用 率 低 于 这 一 目标 。 
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图 19.8 Metronome 回收 咒 在 一 个 回收 周期 中 的 赋值 器 使 用 率 


首次 发 表 于 IBM developerWorks: http://www.ibm.com/developerworks 


在 图 19.8 中 ,区域 A 中 的 曲线 呈 阶 梯 状 ， 其 中 的 下 降 部 分 是 由 回收 器 时 间 片 导致 的 ， 
而 平坦 部 分 则 归功 于 赋值 器 所 获取 的 时 间 片 。 阶 梯 状 的 下 降 趋势 表明 ， 回 收 器 会 与 赋值 器 交 
蔡 执行 ， 以 降低 回收 停顿 时 间 ， 同 时 赋值 器 使 用 率 也 会 逐渐 趋 近 预 定 的 最 小 值 。 区 域 B 中 
仅 有 赋值 器 处 于 活动 状态 ， 其 目的 是 确保 所 有 包含 该 区 域 的 滑动 窗口 的 赋值 器 使 用 率 均 满 足 
要 求 。 在 该 区 域 中 我 们 可 以 看 到 ， 回 收 器 仅 会 在 滑动 窗口 的 起 始 部 分 处 于 活动 状态 ， 其 原因 
在 于 ， 回 收 器 会 在 满足 停顿 时 间 和 赋值 器 使 用 率 的 前 提 下 尽量 贪 禁地 占用 时 间 片 。 这 同时 也 
意味 着 回收 器 会 在 滑动 窗口 的 起 始 部 分 耗 尽 其 最 大 可 能 占用 的 时 间 ， 并 将 所 有 其 他 时 间 留 给 
赋值 器 。 区 域 C 展示 了 当 赋值 器 使 用 率 接 近 目 标 值 时 回收 咒 的 活动 状态 ， 曲 线 的 上 升 部 分 
意味 着 调度 器 察觉 到 赋值 器 使 用 率 接近 预定 目标 值 ， 并 将 时 间 片 分 配给 了 赋值 器 ， 而 曲线 的 
下 降 部 分 则 意味 着 调度 器 将 时 间 片 分 配给 了 回收 器 ， 从 而 对 赋值 器 使 用 率 朝 着 趋 近 于 目标 值 
的 方向 进行 调整 。 锯 齿 状 的 赋值 器 使 用 率 曲 线 表明 ， 通 过 与 赋值 器 交替 执行 的 方式 ， 回 收 器 
不 仅 可 以 实现 短 时 停顿 ， 还 可 以 满足 预定 的 赋值 器 使 用 率 要 求 。 区 域 D 中 的 曲线 表明 ， 回 
收 周期 结束 后 ， 赋 值 器 仍 需 运 行 一 段 时 间 ， 才 能 确保 赋值 器 使 用 率 开始 反弹 。 区 域 E 中， 赋 
值 器 使 用 率 从 目标 值 阶 梯 状 地 上 升 到 100%。 


19.5.2 ”对 可 预测 性 的 支持 


在 确保 回收 器 安全 性 的 前 提 下 ，Metronome 回收 器 使 用 多 种 技术 来 保证 系统 停顿 时 间 的 
可 预测 性 。 第 一 项 技术 所 针对 的 问题 是 : 当 赋 值 器 在 碎片 化 的 堆 中 分 配 大 对 象 时 如 何 确保 分 
配 耗 时 的 可 预测 性 。 其 他 技术 则 用 于 确保 回收 停顿 时 间 的 短暂 性 ， 从 而 进一步 提高 停顿 时 间 
的 可 预测 性 。 

子 数组 。Metronome 回收 器 支持 子 数组 ， 即 赋值 器 可 以 在 多 个 内 存 块 中 分 配 数组 ， 这 一 
策略 能 够 容忍 堆 达 到 一 定 的 碎片 化 程度 ， 从 而 减少 了 对 整理 操作 的 依赖 〈 进 一 步 增 强 了 可 预 
测 性 )。 大 数组 将 以 单 块 连续 索引 对 象 (spine object) 的 形式 分 配 ， 真 正 的 数组 元 素 将 保存 在 
独立 分 配 的 、 大 小 固定 的 子 数 组 中 ， 而 索引 对 象 则 用 于 记录 这 些 子 数 组 的 指针 。 子 数组 的 大 
小 为 2 的 整数 次 震 ， 因 而 对 数组 进行 索引 操作 所 需 的 除法 操作 可 以 通过 移 位 操作 来 实现 。 借 
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助 于 索引 对 象 这 一 中 间 层 ， 我 们 可 以 简单 地 计算 元 素 在 数组 中 的 位 置 。Metronome 回收 器 将 
子 数组 的 大 小 设置 为 2KB ， 而 索引 对 象 的 最 大 尺寸 为 1 6KB， 因 而 数组 最 大 可 以 达到 8MB。 

读 屏 障 。 与 Henriksson[1998] 式 回 收回 类 似 ，Metronome 回收 器 也 使 用 Brooks 式 读 屏 
障 来 确保 赋值 器 在 访问 对 象 时 只 存在 一 元 开销 ， 即 使 回收 器 已 经 移动 了 对 象 。 研 究 者 们 曾 
经 认为 ， 以 软件 方式 实现 读 屏 障 的 开销 过 大 一 一 Zorn[1990] 在 其 运行 时 系统 中 的 开销 测量 结 
果 为 20% 左右 一 一 但 Metronome 回收 融通 过 多 种 优化 技术 可 以 将 读 屏 障 的 平均 开销 降低 到 
4%。 第 一 ， 回 收 器 使 用 立即 读 屏障 (eager read barrier) 对 所 有 从 堆 中 加 载 的 引用 进行 转发 ， 
从 而 确保 赋值 器 加 载 到 的 引用 永远 指向 目标 空间 ， 因 此 ， 赋 值 器 对 栈 和 寄存 器 中 引用 的 访问 
便 不 存在 任何 间接 开销 ， 而 如 果 使 用 懒惰 读 屏 障 ， 则 赋值 器 访问 栈 和 寄存 器 中 的 引用 时 就 必 
须 付 出 额外 的 间接 开销 。 立 即 读 屏 障 的 开销 在 于 ， 当 回收 器 在 回收 时 间 片 内 移动 对 象 时 ， 其 
必须 对 栈 和 寄存 器 中 的 所 有 引用 进行 转发 。 第 二 ，Metronome 回收 器 使 用 多 种 通用 的 编译 器 
优化 技术 来 降低 读 屏 障 的 开销 ， 例 如 通用 子 表 达 式 消除 ， 除 此 之 外 ， 还 包括 一 些 特殊 的 优化 
技术 ， 例 如 将 屏障 移动 到 真正 需要 使 用 时 的 屏障 下 沉 (barrier sink) 技术 、 将 屏障 与 空 指针 
检测 相 结合 的 技术 [Bacon 等 ，2003a]。 

回收 器 的 调度 。Metronome 回收 器 使 用 两 个 不 同 的 线程 来 控制 持续 调度 以 及 短 时 不 可 中 
断 停顿 。 闹 钟 线程 (alarm thread) 拥有 很 高 的 调度 优先 级 (高 于 所 有 赋值 器 线程 )， 并 会 以 
500 ps 为 单位 周期 性 地 得 到 唤醒 。 该 线程 以 这 种 “心跳 ”的 方式 来 判定 是 否 要 对 回收 器 进行 
调度 ， 如 果 需 要 ， 它 会 初始 化 赋值 器 线程 的 挂 起 流程 (但 不 执行 挂 起 操作 一 一 译 者 注 )， 并 
唤醒 回收 姻 线 程 。 闲 钟 线程 的 活动 时 间 仅 足以 完成 这 些 任务 (通常 可 以 在 10 ns 内 完成 )， 因 
而 它 几乎 不 会 对 应 用 程序 造成 任何 影响 。 

回收 线程 ( collector thread) 会 在 每 个 回收 器 时 间 片 中 承担 真正 的 回收 工作 。 该 线程 必 
须 首 先 完成 闹钟 线程 已 经 初始 化 的 赋值 器 线程 挂 起 任务 ， 然 后 才能 利用 剩余 的 时 间 片 来 执行 
回收 相关 工作 。 如 果 回 收 器 发 现 自己 无 法 在 时 间 片 结束 之 前 完成 工作 ， 则 其 可 以 提前 进入 睡 
眠 状态 。 

由 于 赋值 器 和 回收 器 以 固定 的 时 间 交 蔡 执 行 ， 所 以 Metronome 回收 器 可 以 获得 固定 的 
CPU 使 用 率 。 但 是 ， 如 果 赋 值 器 的 分 配 耗 时 会 发 生变 化 ， 则 基于 时 间 的 调度 策略 很 容易 受 
到 不 同 内 存 分 配 需求 的 影响 。 

赋值 器 线程 的 挂 起 。Metronome 回收 器 使 用 一 系列 较 短 的 增 量 停顿 来 完成 每 个 回收 周期 
内 的 回收 任务 。 但 其 同时 也 必须 为 每 个 回收 器 时 间 片 挂 起 所 有 赋值 器 线程 ， 并 使 用 某 种 握手 
机 制 来 确保 所 有 赋值 器 线程 都 挂 起 在 安全 回收 点 。 此 时 ， 每 个 赋值 器 线程 将 释放 所 有 持 有 的 
运行 时 元 数据 、 将 其 当前 上 下 文中 的 所 有 引用 存储 到 预定 义 位 置 、 发 出 信号 以 表明 其 已 经 到 
达 安 全 回收 点 ， 然 后 进入 睡眠 并 等 待 唤醒 信和 号。 得 到 唤醒 之 后 ， 每 个 线程 会 重新 为 其 上 下 文 
加 载 对 象 指针 ， 重 新 获取 其 曾经 持 有 的 、 必 要 的 运行 时 元 数据 ， 然 后 再 继续 执行 。 由 于 赋值 
器 线程 在 挂 起 / 恢复 时 会 进行 存储 /重新 加 载 对 象 指 针 的 操作 ， 所 以 回收 需 可 以 在 回收 时 间 
片 内 更 新 其 中 指向 已 迁移 对 象 的 指针 。 编 译 器 会 在 赋值 器 执行 代码 中 有 规律 地 、 间 隔 性 插入 
安全 回收 点 ， 从 而 确保 挂 起 赋值 器 线程 所 需 的 时 间 存 在 上 界 。 

上 述 赋 值 器 线程 挂 起 机 制 仅 针对 处 于 活动 状态 的 赋值 器 线程 ， 不 访问 堆 的 线程 、 执 行 非 
赋值 器 “本 地 ”代码 的 线程 、 已 经 挂 起 的 赋值 器 线程 (如 出 于 同步 目的 等 待 ) 都 无 需 挂 起 。 
在 回收 器 执行 的 过 程 中 ， 如 果 线 程 开始 执行 (或 者 返回 到 ) 可 以 操作 堆 的 赋值 器 代码 (例如 
从 “本 地 ”代码 中 返回 、 调 用 Java 原生 接口 的 相关 操作 、 访 问 其 他 Java 运行 时 数据 结构 等 )， 
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则 其 需要 将 自身 挂 起 并 等 待 回收 器 时 间 片 执行 完毕 。 

非 协同 (ragged) RHAH. Metronome 回收 器 会 在 一 个 时 间 片 内 完成 所 有 赋值 器 线程 栈 
的 扫描 ， 其 目的 在 于 避免 出 现 指针 丢失 问题 。 因 此 ， 开 发 者 必须 避免 在 其 实时 应 用 程序 中 使 
用 过 深 的 函数 调用 ， 从 而 确保 回收 器 可 以 在 一 个 时 间 片 内 完成 线程 栈 的 扫描 。 尽 管 每 个 栈 的 
扫描 都 必须 在 一 个 时 间 片 内 原子 化 地 完成 ， 但 Metronome 回收 器 依然 允许 在 不 同 的 时 间 片 
内 扫描 不 同 赋值 器 线程 的 栈 ， 也 就 是 说 ， 即 使 回收 器 正在 扫描 某 个 线程 的 栈 ， 系 统 也 允许 回 
收 器 和 赋值 器 线程 交替 执行 。 为 达到 这 一 目的 ，Metronome 回收 器 需要 为 所 有 尚未 扫描 的 线 
程 设置 一 个 写 屏障 ， 该 屏障 可 以 确保 这 些 线程 不 会 在 回收 器 对 其 进行 扫描 之 前 将 某 一 根 对 象 
隐藏 到 回收 波 面 之 后 。 


19.5.3 Metronome 回收 器 的 分 析 


Metronome 回收 器 的 最 大 贡献 之 一 在 于 ， 其 最 早 提出 了 垃圾 回收 调度 问题 的 形式 模型 ， 
以 及 从 赋值 器 使 用 率 和 内 存 使 用 率 角度 出 发 来 设计 回收 器 的 方法 [Bacon 等 ，2003a]。 该 模 
型 通过 如 下 几 个 参数 实现 参数 化 : 赋值 器 瞬时 分 配 率 4*(D 、 赋 值 器 瞬时 垃圾 生成 率 G*(7)、 
垃圾 回收 处 理 率 己 ( 依 照 存活 数据 进行 测量 )。 所 有 这 些 参 数 均 按 照 单 位 时 间 内 的 单位 数据 
量 进行 定义 。 此 处 的 时 间 z 是 指 赋值 器 时 间 ， 并 假定 回收 器 可 以 运行 得 无 限 快 (也 可 更 加 实 
际 地 假定 可 用 内 存 足 够 多 ， 无 需 进行 垃圾 回收 )。 

通过 这 些 参数 ， 我 们 便 可 简单 地 将 时 段 a, n) 中 的 内 存 分 配 量 定义 为 : 

a (Tt, =f" A (dr 


类 似 地 ， 该 时 段 内 的 垃圾 生成 量 可 以 定义 为 : 
7 (nn)=) odr (19.2) 


(19.1) 


At 时段 内 的 最 大 内 存 分 配 量 为 : 
a` (At)=maxa (t,t +AT) (19.3) 


进一步 得 出 最 大 内 存 分 配 率 ?为 : 


a’ (y= TED (19.4) 


在 给 定时 间 *， 程 序 的 瞬时 内 存 需 求 量 (包括 垃圾 、 额 外 开销 、 内 存 碎片 ) 为 : 
m'(t)=a (0, t) —y (0, 7) (19.5) 
程序 的 真正 执行 时 间 当 然 还 要 包括 回收 器 的 执行 时 间 ， 因 而 我 们 引入 函数 @ : t 一 rt 来 表示 
从 真正 时 间 1 到 赋值 器 执行 时 间 z 的 映射 此 时 必然 有 7 夺 1。 我们 将 以 赋值 器 时 间作 为 参 
数 的 函数 记 为 1"， 而 将 以 真正 时 间作 为 参数 的 函数 记 为 1/。 则 在 1 时 刻 ， 程序 的 存活 内 存 总 
HH: 

m(t)}=m (DA) (19.6) 

而 程序 在 整体 执行 过 程 中 的 最 大 内 存 需 求 量 为 : 
m = max m(t) = max m (tr) (19.7) 


时 间 使 用 率 。 除 了 上 述 各 项 参数 之 外 ， 基 于 时 间 的 调度 策略 还 包括 两 个 额外 的 参数 : 赋 


O 此 处 需要 注意 区 分 a* ( 某 一 时 段 内 的 最 大 内 存 分 配 率 ) 与 a* (程序 整个 生命 周期 内 的 最 大 内 存 分 配 量 )。 
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值 器 执行 时 间 单 元 Or 以 及 回收 器 执行 时 间 单 元 Cr， 它 们 分 别 表 示 赋 值 器 和 回收 器 在 放弃 执 
行 (yield) 之 前 可 以 使 用 的 时 间 量 。 据 此 ， 我 们 可 以 把 最 小 赋值 器 使 用 率 定义 为 : 








At 
Q, -| ——— |+ x 
395 a Fen 
aana A (19.8) 
HH, Q. zz 1G, | sexes ent eene, x 表 示 其 余 的 赋值 器 执 
行 时 间 单 元 ， 其 定义 是 : 
At 
r=m 0, 81-0, +67) =“ ]-6;] (19.9) 
随 着 程序 的 执行 ， 最 小 赋值 器 使 用 率 会 逐渐 趋 近 于 赋值 器 占 整体 执行 时 间 的 期 望 值 ， 即 : 
lim ur (An) = at (19.10) 


我 们 以 一 个 可 以 实现 精确 调度 的 系统 为 例 ， 假 定 回收 器 执行 时 间 单 元 Cr = 10， 即 赋值 
器 可 能 经 历 的 最 大 停顿 时 间 为 10ks。 图 19.9 展示 了 在 赋值 器 执行 时 间 单 元 分 别 为 Or = 2.5、 
QO, = 10, Or = 40 时 的 最 小 赋值 器 使 用 率 曲线 。 我 们 注意 到 : 当 At 足够 大 时 ，xr (At) 逐 
渐 问 收敛 ; 回收 器 的 执行 频率 越 高 ( 即 赋 值 器 执行 时 间 单 元 Cr 越 得)， 则 曲线 的 收 
全速 度 越 快 。 除 此 之 外 ， 时 间 范 围 越 小 ， 则 参数 x 对 实时 系统 的 影响 比重 越 大 。 当 然 ， 实 际 
应 用 中 的 回收 器 通常 只 会 断 续 执 行 ， 因 而 ur (At) 只 是 赋值 器 使 用 率 的 下 限 。 


1 





0.8 


10 100 1000 10000 


图 19.9 在 一 个 得 到 精确 调度 的 基于 时 间 的 系统 中 ， 最 小 赋值 器 使 用 率 wu (At) 的 变化 曲线 。Cr = 


赋值 器 使 用 率 逐 渐 向 收敛 。 提 升 回 收 器 的 执行 频率 ( 即 减少 赋值 器 执行 时 间 单 元 的 时 





K) 可 以 加 快 曲线 的 收敛 速度 


空间 使 用 率 。 我 们 曾经 提 到 ， 空 间 利用 率 会 根据 赋值 嚣 分配 率 的 变化 而 有 所 不 同 。 假 定 
回收 率 固定 为 P， 则 在 1 时 刻 ， 回 收费 将 花费 m) / P 的 时 间 来 处 理 m(?) 的 存活 数据 (工作 
量 正 比 于 标记 存活 对 象 所 需 的 追踪 工作 )。 回 收 器 每 执行 一 个 Cr 的 时 间 单 元 ， 赋 值 器 都 会 执 
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行 一 个 Op 的 时 间 单元 。 因 此 在 时 刻 £ 执行 增 量 回收 所 必需 的 额外 空间 为 : 
e(f)=a wo 6+ 20. 2) (19.11) 


我 们 进一步 定义 所 需 额外 空间 的 最 大 值 : 
er = max er (t) (19.12) 


Metronome 回收 器 释放 一 个 垃圾 对 象 可 能 需要 长 达 三 个 回收 周期 : 第 一 个 回收 周期 将 判 
断 该 对 象 是 否 为 垃圾 ; 如 果 其 在 当前 回收 周期 的 快照 获取 完毕 之 后 立即 成 为 垃圾 ， 则 其 只 能 
在 下 一 个 回收 周期 中 得 到 回收 。 而 在 第 二 个 回收 周期 中 ， 如 果 该 对 象 在 得 到 释放 之 前 又 需要 
进行 迁移 ， 则 其 只 能 在 第 三 个 回收 周期 中 得 到 回收 。 
此 ， 系 统 在 时 刻 上 所 需 的 空间 为 (忽略 内 部 碎片 ): 
S;(t) < m(t) + 3e; (19.13 ) 
而 整个 程序 的 空间 需求 量 为 : 
Sp < m+ 3e, (19.14) 
这 一 数值 即 为 系统 在 最 差 情况 下 的 空间 需求 量 ， 此 时 所 有 垃圾 对 象 都 将 被 保留 到 下 一 个 回收 
周期 ， 而 它们 在 下 一 个 回收 周期 中 又 都 需要 移动 。 空 间 需 求 量 的 期 望 值 是 m + ers 
变更 操作 。 由 于 写 屏障 必须 记录 赋值 器 所 删除 和 插入 的 每 个 引用 ， 所 以 变更 操作 也 存在 
额外 的 空间 开销 。 回 收 器 必须 确保 写 屏障 的 开销 是 一 个 常量 。 写 屏障 不 仅 过 滤 掉 nul 引用 ， 
而 且 要 对 目标 对 象 进行 标记 以 避免 重复 记录 ， 从 而 确保 回收 器 的 工作 量 存在 上 限 〈 最 差 情况 
下 ,， 堆 中 所 有 对 象 都 将 被 标记 为 存活 )。 因 此 在 最 差 情 况 下 ， 写 屏障 日 志 中 的 条 目 数量 会 与 
堆 中 对 象 的 数量 相等 。 针 对 这 一 情况 ,日志 条 目的 分 配 应 当 与 一 般 对 象 的 分 配 有 所 区 分 。 
敏感 性 。 只 有 当 开 发 者 所 提供 的 参数 能 够 精确 反映 应 用 程序 与 回收 器 的 特征 时 ， 
Metronome 回收 器 的 运行 时 行为 才能 达到 预期 目标 ， 这 些 参数 包括 : 应 用 程序 的 分 配 率 
不 (0、 垃 圾 生成 率 GO、 回收 器 处 理 率 尸 、 赋 值 器 和 回收 器 各 自 的 执行 时 间 单 元 Qr Cro 
赋值 器 使 用 率 xr 仅 取决 于 Or 和 Cr， 因 而 其 值 可 以 保持 稳定 〈 除 此 之 外 ， 仅 可 能 受到 操作 系 
统 传递 时 间 单 元 相关 信号 的 波动 以 及 最 小 时 间 单 元 的 影响 )。 
整个 程序 的 空间 需求 量 8r 会 受到 垃圾 回收 所 必需 的 额外 空间 ey(?) 的 影响 ， 而 后 者 又 取 
决 于 程序 的 最 大 内 存 使 用 量 m 以 及 赋值 器 在 一 个 执行 时 间 单 元 里 的 内 存 分 配 量 。 如 果 开 发 
者 低估 了 总 空间 需求 量 m 或 者 最 大 分 配 率 a ， 则 总 内 存 需求 量 sr 可 能 会 出 现 不 可 控制 的 增 
长 。 如 果 在 赋值 器 某 一 时 刻 的 分 配 率 过 高 ， 则 基于 时 间 的 回收 器 很 容易 出 现 内 存 需 求 量 暴 增 
的 情况 。 类 似 地 ， 开 发 者 也 必须 对 回收 器 处 理 率 P 进行 较为 保守 的 估计 ( 即 小 于 真正 的 回收 
处 理 率 )。 
幸运 的 是 ， 相 对 于 赋值 器 执行 时 间 单 元 而 言 ， 一 个 回收 周期 的 持续 时 间 相 对 较 长 : 
Aram Qr 
P © 
因此 ， 回 收 周期 内 的 分 配 率 将 接近 于 平均 分 配 率 ， 因 而 只 要 最 大 内 存 需 求 量 m 得 到 准确 评 
估 ， 系 统 的 空间 消耗 量 将 几乎 保持 不 变 。 
与 基于 工作 的 调度 策略 的 比较 。 我 们 可 以 对 基于 工作 的 调度 策略 进行 简单 的 分 析 ， 然 后 
再 将 其 与 基于 时 间 的 调度 策略 进行 比较 。 但 是 ， 赋 值 器 的 操作 却 会 影响 其 能 占用 的 执行 时 
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间 ， 从 而 对 分 析 结 果 造 成 影响 。 更 加 正式 地 讲 ， 对 于 基于 时 间 的 调度 策略 ， 从 真正 时 间 :到 
赋值 器 时 间 z 的 映射 函数 @ 是 线性 且 固 定 的 ， 而 对 于 基于 工作 的 调度 策略 ， 这 一 映射 函数 
则 是 变化 的 、 非 线性 的 ， 具 体 取决 于 应 用 程序 。 

在 基于 工作 的 调度 策略 中 ， 当 赋值 右 达 到 一 定 的 内 存 分 配 量 时 ， 调 度 咒 便 会 唤起 回收 器 
并 执行 一 定 的 回收 工作 ， 这 一 工作 模式 可 以 从 回收 器 的 两 个 输入 参数 中 得 到 体现 : 赋值 器 工 
作 单 元 Or 和 回收 需 工 作 单元 Cw 分 别 表示 调度 器 允许 赋值 器 / 回收 器 在 让 出 CPU 之 前 执行 
多 少 (相对 ) 内 存 分 配 /回收 工作 。 

对 于 基于 工作 的 调度 策略 ， 由 于 其 时 间 映 射 函 数 @ 是 变化 的 、 非 线性 的 ， 所 以 我 们 无 
法 得 出 最 小 赋值 器 使 用 率 的 封闭 解 (closed-form solution ) 。 在 每 个 回收 增 量 中 ， 回 收 器 会 以 
速率 尸 处 理 总 量 为 Cy 的 内 存 ， 因 而 回收 停顿 时 间 固 定 为 & = Cr / P。 每 个 赋值 器 执行 单元 
会 分 配 总 量 为 Ow 的 内 存 ， 因 此 第 i 个 赋值 器 执行 单元 的 最 小 执行 时 间 A 为 满足 如 下 等 式 
的 解 : 

a*( A7T) = iO, (19.15 ) 

增 大 时 间 间 隔 并 不 会 降低 赋值 器 在 该 时 段 内 的 最 大 内 存 分 配 量 ， 因 而 xc*(Az) 会 呈现 单 
调 递增 的 趋势 。 因 此 Ac, > Ar ， 则 等 式 ( 19.15 ) 可 以 通过 迭代 的 方式 求解 。 假 定 上 为 最 
大 的 整数 ， 则 有 : 


kd+Atu,< At (19.16 ) 
因此 ， 在 时 段 At 内 的 最 小 赋值 器 使 用 率 为 : 
Ado 
Arz (19.17) 


Hep, An ANB At 内 大 个 赋值 器 执行 单元 的 总 时 长 ，y 为 其 余 赋值 器 执行 单元 ， 其 定义 
如 下 : 
y=max(0, At— Aty,-(k+1)°d) (19.18 ) 

需要 注意 的 是 ， 当 At < 4 时 ， 最 小 赋值 器 使 用 率 up ( Az) 将 低 至 零 。 除 此 之 外 ,一 旦 
赋值 器 分 配 了 大 小 为 nOr 的 对 象 ， 回 收 器 便 必须 执行 n 个 回收 工作 单元 ， 从 而 产生 至 少 nd 
的 回收 停顿 时 间 ， 在 此 期 间 赋 值 器 使 用 率 也 将 降低 至 零 。 这 一 分 析 结 果 表 明 ， 开 发 者 必须 避 
免 在 基于 工作 的 垃圾 回收 环境 下 分 配 过 大 的 对 象 ， 同 时 必须 确保 分 配 操 作 分 布 均匀 ， 只 有 这 
样 才能 确保 应 用 程序 满足 实时 要 求 。 

最 小 赋值 器 使 用 率 取决 于 赋值 器 的 分 配 率 a *( At) (其 中 ，At < At) 以 及 回收 器 处 理 
率 P。 假 定 需要 满足 实时 性 能 要 求 的 时 段 At 较 小 (例如 20ms)， 则 该 时 段 内 的 峰值 分 配 率 
可 能 会 很 高 。 因 此 ， 从 实时 尺度 来 看 ， 基 于 工作 的 调度 策略 的 最 小 赋值 器 使 用 率 uy (Ad 将 
会 与 赋值 器 分 配 率 存在 很 大 差异 。 而 对 于 基于 时 间 的 调度 策略 ， 回 收 器 受 分 配 率 影 响 的 时 间 
Ar 则 是 一 个 更 大 的 范围 ， 即 回收 器 完成 一 个 垃圾 回收 周期 所 需 的 时 间 。 

在 空间 方面 ， 回 收 器 在 时 刻 上 所 需 的 额外 空间 量 为 : 

Qy 


Gy (0) = m) E- (19.19) 
进一步 得 出 一 个 完整 的 回收 周期 所 需 的 额外 空间 总 量 为 : 
im 2 
ey =m C. (19.20 ) 


只 要 开发 者 对 总 存活 内 存量 m 预 估 准 确 ， 则 该 值 也 必然 是 准确 的 。 另 外 需要 注意 的 是 ， 


EHHA DIK 355 


如 果 Ow < Cw， 则 一 个 完整 回收 周期 所 需 的 额外 空间 总 量 er 将 超过 赋值 器 所 需 的 空间 总 量 
m。 因 此 在 时 刻 :， 应 用 程序 的 总 内 存 需 求 量 为 : 
Sw (tf) < m(t) + 3ew (19.21) 
则 总 体 空间 需求 量 为 : 
Sp=m + 3ey (19.22 ) 
综 上 所 述 ， 对 于 基于 工作 的 回收 调度 策略 ， 只 要 存活 内 存 总 量 m 预 估 准 确 ， 则 应 用 程 
序 必然 可 以 满足 空间 界限 要 求 ， 但 其 最 小 赋值 器 使 用 率 则 严重 依赖 于 赋值 器 执行 实时 任务 时 
的 分 配 率 。 与 此 相 比 ， 尽 管 基 于 时 间 的 回收 器 很 容易 满足 最 小 赋值 器 使 用 率 的 要 求 ， 但 其 空 
间 需 求 总 量 却 可 能 产生 波动 。 


19.5.4 ”和 鲁 棒 性 


基于 时 间 的 回收 调度 策略 可 以 满足 实时 垃圾 回收 的 鲁 棒 性 (robustness) 要 求 ， 但 是 ， 一 
且 回 收 器 的 输入 参数 不 够 精确 ， 则 其 很 可 能 无 法 回收 到 足够 的 内 存 ， 此 时 唯一 优雅 的 降级 策 
略 是 降低 赋值 器 的 分 配 率 。 

一 种 降低 整体 分 配 率 的 策略 是 使 用 分 代 策 略 ， 即 把 年 轻 代 作为 降低 主体 堆 内 存 分 配 率 的 
一 个 过 滤器 。 将 垃圾 回收 的 主要 精力 集中 在 堆 中 最 容易 生成 空闲 内 存 的 部 分 ， 不 仅 能 够 提 
升 赋值 器 使 用 率 ， 而 且 有 助 于 减少 浮动 垃圾 。 但 是 ,传统 的 新 生 代 回 收 在 两 个 方面 存在 不 确 
定性 , 一 是 回收 所 需 的 时 间 ， 二 是 需要 提升 的 数据 量 。Syncopation 回收 器 是 一 种 可 以 将 新 
生 代 回收 与 成 熟 空 间 回 收 同步 进行 的 策略 ， 其 中 新 生 代 存活 对 象 将 在 成 熟 空 间 回 收 周期 的 开 
始 阶 段 以 及 清扫 过 程 启动 时 得 到 提升 ， 且 这 一 过 程 均 位 于 成 熟 空 间 回 收 周期 之 外 [Bacon $, 
2005]。 该 策略 需要 对 分 代 回 收 过 程 进行 分 析 ， 将 其 新 生 代 存活 率 作为 回收 器 的 输入 参数 ， 
并 合理 设置 新 生 代 的 大 小 ， 以 确保 其 中 所 有 存活 对 象 可 以 在 一 个 实时 窗口 内 完成 提升 。 对 于 
任意 给 定 的 应 用 程序 ， 这 一 分 析 方 法 可 以 确定 分 代 回 收 策略 是 否 适用 。 在 程序 执行 过 程 中 ， 
赋值 器 分 配 率 的 短 时 剧烈 波动 可 能 导致 回收 器 无 法 在 满足 实时 要 求 的 前 提 下 完成 新 生 代 的 提 
升 ， 而 Syncopation 回收 器 的 解决 方案 则 是 将 由 此 引发 的 回收 工作 推迟 。Frampton 等 [2007] 
采用 了 另 一 种 策略 ， 他 们 人 允许 回收 器 增 量 式 地 执行 新 生 代 回收 ， 从 而 避免 提升 年 轻 代 存活 对 
象 的 耗 时 过 长 。 

减缓 赋值 器 分 配 率 的 另 一 种 策略 是 简单 地 引入 基于 工作 调度 策略 的 相关 方法 ， 但 这 却 可 
能 导致 赋值 器 无 法 满足 时 限 要 求 。 而 基于 间隙 的 调度 策略 则 可 以 通过 抢占 低 优 先 级 赋值 器 线 
程 的 方式 来 赶 上 赋值 右 的 分 配 率 ， 因 此 只 要 高 优先 级 实时 任务 之 间 的 间隙 足够 多 ， 则 赋值 器 
依然 能 够 满足 实时 要 求 。 基 于 这 一 观察 结果 ， 研 究 者 们 进一步 提出 了 将 基于 间 际 的 调度 策略 
与 基于 时 间 的 调度 策略 相 结 合 的 一 整套 方法 论 ， 即 税收 与 开支 (tax-and-spend)。 


19.6 ”多 种 调度 策略 的 结合 :“ 税 收 与 开支 ” 


Metronome 回收 器 需要 将 赋值 需 挂 起 一 小 段 时 间 ， 并 在 这 段 时 间 内 执行 一 个 回收 增 量 ， 
其 能 够 在 专用 单 处 理 器 或 者 核 数 较 少 的 多 处 理 器 系统 上 表现 出 最 佳 性 能 。 相 比 之 下 ， 基 于 工 
作 的 回收 天 所 产生 的 停顿 时 间 则 可 能 会 比 基 于 时 间 的 调度 策略 多 出 几 个 数量 级 。Henriksson 
的 基于 间 际 的 调度 策略 最 适用 于 周期 性 执行 的 应 用 程序 ， 而 一 旦 高 优先 级 任务 的 执行 间隙 不 
足 ， 则 系统 很 容易 出 现 过 载 。 为 解决 不 同调 度 策略 各 自 的 局 限 性 ，Auerbach 等 [2008] 综合 
了 基于 工作 的 调度 策略 、 基 于 间隙 的 调度 策略 以 及 基于 时 间 的 调度 策略 ， 并 提出 了 一 种 通用 





400 


356 F 19% 


的 垃圾 回收 调度 方法 论 :“ 税 收 与 开支 " 。 将 该 技术 应 用 到 Metronome 回收 器 之 后 ， 其 平均 
吞吐 量 提升 了 10% ~ 20% (时 间 窗 缩小 到 原 有 时 间 窗 的 二 ， 响 应 延迟 降低 了 3 倍 )。 


“税收 与 开支 ”回收 器 的 基本 理念 是 : 每 个 赋值 器 线程 都 应 当 参 与 一 定 的 回收 工作 ( 即 
“纳税 ”)， 同 时 也 应 当 与 回收 器 交替 执行 ， 以 确保 满足 最 小 赋值 器 使 用 率 的 要 求 。 回 收 器 也 
可 在 赋值 器 的 执行 间隙 尽量 多 地 执行 回收 工作 ， 即 尽量 多 地 积 斤 “ 存 款 ”( credit) 以 供 赋值 
器 “支出 ”， 从 而 达到 减少 赋值 器 的 回收 工作 量 、 保 持 或 者 提升 赋值 器 使 用 率 的 目的 。 

当 线程 执行 到 安全 回收 点 时 ， 某 些 全 局 要 素 将 决定 其 是 否 需 要 “纳税 ”， 与 此 同时 ， 赋 
值 器 线程 在 内 存 分 配 慢 速 路 径 〈 即 当 线程 本 地 分 配 缓冲 区 耗 尽 时 ) 中 也 会 判断 是 否 需要 将 回 
收工 作 挂 起 ， 判 定 结果 同样 取决 于 赋值 器 的 工作 情况 (通过 如 下 参数 进行 分 析 : 内 存 分 配 的 
单元 、 线 程 执行 时 间 、 已 经 执行 过 的 安全 回收 点 、 物 理 时 间或 者 某 种 虚拟 时 间 )。 

19.6.1 “税收 与 开支 ”调度 策略 

我 们 知道 ， 最 小 赋值 器 使 用 率 的 推导 对 于 开发 者 而 言 相 对 简单 ， 他 们 只 需要 认为 系统 的 
执行 速度 要 比 原 生 处 理 器 慢 ， 且 在 最 差 情况 下 的 响应 能 力 最 多 只 会 通 近 垃圾 回收 器 的 量化 限 
制 。 最 大 停顿 时 间 也 是 衡量 回收 器 对 赋值 器 扰动 的 指标 ， 但 最 小 赋值 器 使 用 率 显 然 要 优 于 前 
者 ， 因 为 它 会 考虑 到 由 于 单个 短 时 停顿 的 聚集 而 导致 的 响应 超 限 以 及 由 此 导致 的 执行 速度 减 
慢 。“ 税 收 与 开支 ”调度 策略 允许 不 同 线程 拥有 不 同 的 赋值 器 使 用 率 ， 从 而 可 以 在 线程 分 配 
率 差异 较 大 时 保证 一 定 的 弹性 ， 也 可 确保 具有 严格 时 限 要 求 的 线程 尽量 少 地 被 中 断 。 另 外 ， 
位 于 空闲 处 理 器 上 的 后 台 线程 可 以 为 赋值 器 线程 减少 一 定 的 回收 工作 ， 从 而 确保 较 高 的 赋值 
器 使 用 率 。 回 收 器 可 以 根据 应 用 程序 的 特征 来 选择 最 佳 时 间 测 量 方式 ， 既 可 以 是 物理 时 间 ， 
也 可 以 基于 虚拟 时 间 。 任 何 针对 应 用 程序 的 分 析 都 必须 综合 单个 线程 的 实时 要 求 来 获取 程序 
的 整体 行为 状态 。 

每 个 线程 的 调度 。 为 控制 每 个 线程 的 赋值 器 使 用 率 , “税收 与 开支 ”调度 策略 必须 依照 
每 个 线程 的 服务 指标 来 进行 回收 工作 的 测量 以 及 调度 ， 同 时 能 够 把 每 个 回收 增 量 指派 给 特定 
的 赋值 器 线程 。 回 收 器 可 以 记录 哪些 线程 完成 了 哪些 工作 (包括 扩展 赋值 器 操作 日 志 、 初 始 
化 已 分 配 页 ， 以 及 其 他 短 记 行为 的 开销 )， 从 而 避免 为 某 一 线程 调度 过 多 的 回收 工作 。 

另外 ， 在 赋值 器 线程 主动 陷入 操作 系统 之 前 (例如 执行 分 配 慢 束 路径、 执行 IO 调用 ， 
或 者 执行 不 会 访问 堆 的 本 地 代码 )， 为 避免 操作 系统 调度 器 感知 到 线程 用 完 其 操作 系统 时 间 
片 并 用 其 他 一 些 无 关 线 程 将 其 替换 , “税收 与 开支 ”调度 策略 会 令 该 线程 执行 一 定 的 回收 增 
量 。 这 一 策略 在 负载 较 重 的 系统 中 尤为 重要 。 如 果 令 赋值 器 操作 与 回收 器 操作 在 同一 个 操作 
系统 线程 上 交替 执行 ， 则 操作 系统 调度 器 便 几 乎 不 会 干扰 到 垃圾 回收 工作 的 调度 。 

当 系 统 中 各 线程 的 内 存 分 配 率 存在 显著 差别 ,或 者 希望 高 优先 级 线程 (例如 事件 处 理 线 
FE) 尽量 少 被 打扰 时 ， 人 允许 不 同 线程 拥有 不 同 的 赋值 器 使 用 率 便 显得 十 分 重要 。 这 同时 也 能 
够 减少 时 限 要 求 不 高 的 线程 所 能 得 到 的 时 间 单 元 ， 同 时 承担 更 多 的 回收 工作 ， 从 而 达到 系统 
吞吐 量 的 上 升 。 

“税收 与 开支 ”调度 策略 与 基于 间隙 的 调度 策略 的 对 比 。 基 于 间隙 的 调度 策略 能 够 在 经 
典 的 周期 性 实时 系统 中 表现 良好 ， 但 是 ， 一 且 系 统 出 现 过 载 且 高 优先 级 任务 之 间 没 有 足够 的 
间隙 ， 则 系统 的 性 能 会 出 现 急 剧 下 降 ， 这 一 原因 导致 其 几乎 无 法 应 用 于 队列 式 、 自 适应 式 
( 即 系统 尽量 精确 地 计算 出 结果 ， 但 也 容许 通过 降低 精度 来 避免 过 载 ) 或 者 交互 式 实时 系统 。 
基于 工作 的 调度 策略 依照 赋值 器 的 分 配 工作 量 来 对 赋值 器 “ 课 税 ”， 即 其 所 需 执 行 的 回收 相 
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关 工作 正比 于 其 内 存 分 配 量 ， 从 而 确保 回收 器 能 够 在 内 存 耗 尽 之 前 结束 当前 的 回收 周期 。 该 
策略 的 问题 在 于 其 最 小 赋值 器 使 用 率 过 低 ， 且 回收 停顿 时 间 变 化 很 大 。 基 于 时 间 的 调度 策略 
依照 赋值 器 使 用 率 来 对 赋值 器 “ 课 税 "”， 因 此 回收 器 能 够 利用 给 定 的 处 理 器 时 间 来 处 理 回 收 
相关 工作 。 由 于 回收 器 对 赋值 器 的 “ 课 税 ” 是 持续 性 的 ， 因 而 其 在 过 载 情况 下 依然 具有 较 高 
的 鲁 棒 性 ， 但 是 ， 一 旦 高 优先 级 任务 的 间隙 不 足 ， 则 赋值 器 的 执行 很 容易 出 现 不 必要 的 波 
动 ， 因 为 只 要 赋值 器 使 用 率 满足 要 求 ， 回 收回 便 可 在 任意 时 刻 执行 回收 工作 。 

“税收 与 开支 ”调度 策略 与 基于 间隙 调度 策略 的 结合 “税收 与 开支 ”调度 策略 采用 了 一 
种 经 济 学 模型 来 将 不 同 的 调度 策略 相 结合 。 每 个 赋值 名 线程 都 承担 一 定 的 “ 负 税 率 " ， 该 值 
将 决定 其 在 一 段 时 间 内 必须 承担 的 回收 工作 量 ， 进 而 决定 了 每 个 线程 各 自 的 最 小 赋值 器 使 用 
率 。 专 职 垃圾 回收 线程 将 以 低 优先 级 或 者 空闲 优先 级 在 高 优先 级 任务 的 间隙 执行 ， 并 为 赋值 
器 积累 “存款 ”。 回 收 器 通常 会 将 “存款 ” 存 人 一 个 全 局 “账户 ”中 ， 当 然 也 可 以 视 情 况 将 
其 存 人 多 个 “账户 ” 中。 

所 有 线程 的 总 体 “ 负 税 ”情况 (包括 赋值 器 线程 的 “ 负 税 ”以 及 回收 器 线程 所 贡献 的 
“存款 ”) 必须 能 够 确保 回收 器 能 够 在 内 存 耗 尽 之 前 完成 回收 周期 。 后 台 回 收 线程 的 数量 通常 
会 与 处 理 器 的 数量 相同 ， 这 一 配置 方式 可 以 确保 回收 线程 能 够 在 整个 系统 的 执行 平缓 期 天 然 
得 到 执行 。 这 些 线程 执行 一 系列 回收 工作 单元 ， 每 个 工作 单元 都 会 增加 相应 “存款 ”。 在 实 
时 操作 系统 中 ， 后 台 回 收 线程 以 低 优先 级 方式 运行 要 比 以 标准 空闲 优先 级 运行 要 好 ， 如 此 一 
来 这 些 线程 便 可 以 像 其 他 一 些 真 正 执行 工作 的 线程 一 样 得 到 调度 ， 而 不 是 只 能 在 空闲 时 自得 
到 调度 。 这 些 低 优先 级 实时 线程 也 应 当 存 在 一 定 的 休眠 时 间 ， 从 而 保证 即使 是 回收 工作 占据 
整个 处 理 器 ， 非 实时 线程 也 能 得 到 调度 。 这 同时 也 赋予 了 系统 管理 员 在 必要 时 登录 并 杀 死 失 
控 实 时 进程 的 能 力 。 

调度 器 将 根据 每 个 线程 所 期 望 的 最 小 赋值 器 使 用 率 进 行 调度 ， 其 不 仅 要 满足 赋值 器 线程 
的 实时 要 求 ， 而 且 还 要 确保 回收 器 能 够 正常 向 前 执行 。 如 果 某 一 赋值 器 线程 在 执行 过 程 中 出 
现 “ 欠 税 ” 情 况 ， 则 其 首先 尝试 从 全 局 “账户 ”中 扣除 等 额 的 “存款 ”来 补偿 “ 欠 税 ”"， 如 
若 成 功 ， 则 该 线程 便 可 免 于 “纳税 ”。 只 有 当 后 台 回 收 线程 无 法 产生 足够 的 “存款 ”时 ， 赋 
值 器 才 需 要 “纳税 "”， 即 使 “存款 ”额度 不 足 赋值 器 线程 的 一 个 “纳税 ”单元 ， 其 所 需 执行 
的 回收 工作 量 也 会 比 正常 情况 下 少 。 因 此 ， 只 要 高 优先 级 实时 线程 的 执行 间隙 足 够 多 ， 则 不 
仅 赋 值 器 可 以 达到 高 吞吐 量 、 低 延迟 的 标准 ， 而 且 回收 工作 也 不 会 出 现 延 误 。 "税收 与 开支 ” 
调度 策略 能 够 以 相同 的 方式 来 对 待 单 处 理 器 的 执行 间隙 以 及 多 处 理 器 的 富余 执行 能 力 。 


19.6.2 “税收 与 开支 ”调度 策略 的 实现 基础 


“税收 与 开支 ”调度 策略 所 依赖 的 回收 器 不 仅 必 须 是 增 量 式 的 (只 有 这 样 ， 基 于 工作 的 
回收 器 才能 以 “ 课 税 ” 的 方式 工作 在 赋值 器 线程 上 )， 而 且 必 须 是 并 发 式 的 (只 有 这 样 ， 基 
于 间隙 的 回收 器 才能 与 赋值 器 并 发 工作 在 空闲 的 处 理 器 上 )。 为 了 有 效 利 用 多 处 理 器 资源 ， 
其 同时 也 应 当 是 并 行 式 的 (只 有 这 样 ， 基 于 间隙 的 回收 器 才能 与 基于 工作 的 回收 器 并 发 执 
行 )。 尽 管 Metronome 回收 器 是 增 量 式 的 ， 但 是 其 并 非 针 对 并 发 环境 而 设计 的 ， 原 因 在 于 基 
于 时 间 的 调度 策略 要 求 赋值 器 和 回收 器 以 精确 的 时 间 间 隔 交 替 执 行 ， 且 当 回 收 器 执行 时 赋值 
器 应 当 处 于 挂 起 状态 。 针 对 这 一 情况 ,“ 税 收 与 开支 ”调度 策略 做 出 了 两 项 重要 改进 : 第 一 ， 
回收 器 线程 可 以 与 赋值 器 线程 并 发 执行 ， 因 此 便 可 以 简单 地 利用 某 些 处 理 器 的 执行 间隙 来 处 
理 回收 工作 ， 与 此 同时 ， 其 他 处 理 器 依然 可 以 运行 赋值 器 线程 ; 第 二 ， 当 系统 的 负载 情况 决 
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定 回收 器 有 必要 从 赋值 器 “窃取 ”一 部 分 执行 时 间 时 ， 其 可 以 将 回收 增 量 以 “ 课 税 ” 的 形式 
施加 给 赋值 器 。 

如 果 只 依赖 并 发 回收 ， 相 当 于 是 将 垃圾 回收 线程 的 调度 任务 全 权 交 由 操作 系统 调度 器 负 
责 ， 这 显然 是 远 远 不 够 的 ， 因 为 其 既 不 能 确保 应 用 程序 满足 实时 系统 的 时 限 要 求 ， 也 不 能 避 
免 堆 耗 尽 。 即 使 是 对 于 实时 操作 系统 ， 其 依然 无 法 利用 应 用 程序 的 内 存 分 配 模式 以 及 空间 需 
求 量 信息 来 决定 调度 策略 。 

接 下 来 ,我 们 将 介绍 “税收 与 开支 ”调度 策略 是 如 何 将 Metronome 回收 器 扩展 成 一 个 
即时 、 并 发 、 并 行 、 增 量 回收 器 的 。 其 扩展 方式 与 其 他 即时 并 行 /并 发 回收 器 类 似 ， 但 是 为 
了 表述 的 完整 性 ， 我 们 在 此 重新 进行 介绍 。 

基于 非 协同 时 段 (ragged epoch) 的 全 局 握手 。 所 有 赋值 器 线程 需要 针对 当前 回收 器 的 
工作 状态 产生 一 致 的 认 知 ， 为 达到 这 一 目的 ,“ 税 收 与 开 文 ”调度 策略 并 不 需要 将 所 有 赋值 
器 线程 挂 起 ， 而 是 采用 非 协同 时 段 协 议 〈 所 谓 非 协 同时 段 ， 是 指 系统 允许 各 线程 处 于 不 同 的 
时 段 ， 而 不 是 要 求 先 到 达 某 一 时 段 的 线程 等 待 其 他 线程 一 一 译 者 注 )， 该 协议 存在 多 种 应 用 
场景 。 例如， 在 回收 的 某 些 阶 段 ， 所 有 赋值 器 都 必须 安装 特定 的 写 屏障 。 除 此 之 外 ， 回 收 周 
期 的 结束 也 要 求 所 有 赋值 器 线程 都 清空 其 本 地 存储 缓冲 区 。 对 于 赋值 器 线程 安装 写 屏 障 、 进 
行 结束 检测 这 两 种 场景 ， 非 协同 段 时 段 协 议 可 以 确保 所 有 线程 都 已 经 进入 新 的 状态 。 

非 协 同时 段 机 制 使 用 一 个 全 局 共享 时 段 计 数 器 ， 每 个 线程 均 可 以 通过 原子 化 地 增加 该 计 
数 器 的 方式 发 起 一 个 新 的 时 段 。 除 此 之 外 ， 每 个 线程 也 拥有 一 个 本 地 时 段 计数 器 ， 线 程 更 新 
本 地 计数 器 的 方式 是 将 共享 时 段 计数 器 的 值 复制 到 本 地 时 段 计 数 器 中 ， 且 该 操作 只 能 在 安全 
回收 点 执行 。 如 此 一 来 ， 每 个 线程 本 地 时 段 计 数 器 的 值 便 不 可 能 大 于 共享 时 段 计 数 器 。 任 意 
线程 都 可 以 检查 所 有 线程 的 本 地 时 段 计 数 器 值 ， 并 找 出 其 中 的 最 小 时 段 值 ， 该 时 段 即 为 整个 
系统 的 已 确认 时 段 (confirmed epoch), WRIA EH FI Beit eat, ABA RAM 
已 确认 时 段 达到 或 者 超过 其 所 设置 的 值 时 ， 该 线程 才能 确定 所 有 线程 都 已 经 注意 到 这 一 变 
化 。 如 果 硬 件 的 顺序 性 保障 较 弱 ， 则 线程 在 更 新 本 地 时 段 计 数 器 之 前 必须 使 用 内 存 屏障 。 对 
于 陷入 IO 等 待 或 者 执行 本 地 代码 的 线程 ， 其 在 返回 托管 环境 时 必须 首先 更 新 本 地 时 段 计 数 
器 ， 然 后 才能 继续 执行 其 他 时 段 敏 感 操 作 。 如 此 一 来 ， 系 统 便 可 简单 地 将 这 些 线程 看 作 是 已 
经 处 于 当前 时 段 ， 从 而 无 需 等 待 其 返回 托管 环境 。 

基于 “最 后 离开 者 ”( last one out) 协议 的 阶段 协商 机 制 。 在 Metronome 回收 器 中 ,各 
线程 很 容易 就 回收 器 处 于 哪 一 阶段 (例如 标记 、 清 扫 、 终 结 等 ) 达成 一 致 ， 其 原因 在 于 该 回 
收 器 的 回收 相关 工作 是 由 专门 的 线程 来 负责 的 ， 只 要 这 些 线程 的 共享 回收 时 间 片 依然 足够 ， 
它们 便 可 阻塞 式 地 翻转 到 下 一 个 状态 。 但 是 ， 如 果 并 发 执行 的 赋值 器 线程 也 需要 承担 一 部 
分 回收 工作 ， 则 每 个 赋值 器 线程 在 进行 “纳税 ”时 便 可 能 处 在 不 同 的 执行 阶段 ， 此 时 的 回 
收 阶段 检测 机 制 就 必须 是 非 阻 塞 式 的 ， 否 则 需要 “纳税 ”的 赋值 融 线 程 便 有 可 能 无 法 满足 
实时 响应 要 求 。 由 于 非 协同 时 段 握 手机 制 无 法 将 需要 “纳税 ”的 赋值 器 线程 与 其 他 赋值 器 线 
程 相 区 分 ， 所 以 其 在 这 一 场景 下 并 不 高 效 。 与 此 相 比 ,“ 最 后 离开 者 ”协议 将 阶段 指示 器 与 
工作 者 计数 器 保存 在 单个 共享 且 可 以 原子 化 更 新 的 位 置 ， 从 而 可 以 高 效 地 实现 回收 阶段 的 
变更 。 

每 个 开始 “纳税 ”的 线程 都 会 原子 化 地 增加 “纳税 者 ”计数 器 的 值 ， 但 其 并 不 会 更 新 阶 
段 指示 器 。 如 果 某 一 赋值 器 线程 在 完成 “纳税 ”之 后 发 现 该 阶段 还 存在 剩余 工作 ， 其 将 原子 
化 地 减少 工作 者 计数 器 的 值 ， 同 时 依然 不 会 更 新 阶段 指示 器 。 一 旦 某 个 线程 发 现 该 阶段 ( 貌 
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Wh) 没有 更 多 工作 要 做 ， 且 其 自身 是 当前 唯一 的 工作 者 〈( 即 工作 者 计数 器 的 值 为 1 )， 则 将 认 
为 当前 阶段 可 能 已 经 结束 ， 此 时 ， 该 线程 将 通过 原子 操作 同时 完成 回收 阶段 的 变更 以 及 工作 
者 计数 器 的 减少 ， 从 而 实现 回收 状态 的 变迁 。 

该 协议 能 够 正常 工作 的 前 提 是 ， 每 个 工作 者 线程 在 完成 “纳税 ”之 后 必须 将 剩余 的 未 完 
成 工作 归还 给 全 局 工作 队列 。 垃 圾 回收 工作 无 论 如 何 最 终 都 会 被 全 部 处 理 ， 因 此 必然 会 存在 
一 个 线程 成 为 最 后 完成 工作 的 线程 ， 该 线程 将 把 整个 应 用 程序 带 入 下 一 个 回收 阶段 。 

不 幸 的 是 ， 该 策略 并 不 能 简单 用 于 Metronome 回收 器 标记 阶段 的 结束 检测 ， 因 为 该 回 
收 器 的 删除 屏障 会 将 被 覆盖 的 指针 添加 到 每 个 线程 本 地 更 新 日 志 中 ， 而 标记 阶段 结束 的 必要 
条 件 之 一 便 是 所 有 线程 的 更 新 日 志 都 为 空 (注意 是 所 有 线程 而 不 只 是 执行 回收 工作 的 线程 )。 
因此 ,“ 税 收 与 开 文 ”回收 器 需要 额外 引信 一 个 最 终 标记 阶段 ( final mark phase)， 该 阶段 将 
只 允许 一 个 线程 来 处 理 回收 工作 ， 该 线程 将 使 用 非 协 同时 段 握手 机 制 来 判定 所 有 线程 的 更 新 
日 志 是 否 都 已 经 为 空 。 如 果 判 定 结果 为 假 ， 该 线程 将 发 出 尚未 完成 的 通知 ， 并 将 回收 器 的 状 
态 切 换 回 并 行 标记 阶段 。 不 论 如 何 ， 最 终 标记 阶段 的 结束 条 件 最 终 都 会 满足 ， 该 阶段 的 唯一 
回收 线程 必然 可 以 将 回收 器 带 和 下 一 个 阶段 。 

每 个 线程 回调 (per-thread callback)。 回 收 周期 内 的 大 多 数 回 收 阶段 都 只 需要 部 分 线程 
参与 回收 工作 即 可 确保 回收 器 的 正常 执行 ,但 在 其 他 回收 阶段 中 ， 回 收 器 却 必须 要 求 每 个 赋 
值 器 线程 都 完成 一 些 工 作 (或 者 为 每 个 赋值 器 线程 完成 一 些 工作 )。 例 如 ， 在 回收 的 第 一 阶 
段 便 必须 扫描 每 个 赋值 器 的 栈 ， 再 如 ， 其 他 阶段 要 求 赋值 器 线程 刷新 其 本 地 缓冲 区 并 将 其 交 
由 回收 器 。 为 满足 这 一 需求 ， 回 收 器 需要 在 某 些 回收 阶段 使 用 回调 协议 来 蔡 代 “最 后 离开 者 
协议 。 

在 回调 阶段 ， 某 个 回收 器 主线 程 会 周期 性 地 检查 所 有 赋值 器 线程 ， 并 判定 它们 是 否 执行 
了 回收 器 指定 的 工作 。 如 果 某 一 赋值 器 线程 尚未 开始 执行 ， 回 收 器 会 要 求 其 在 下 一 个 安全 
回收 点 执行 某 一 回调 函数 来 完成 某 项 工作 (例如 线程 栈 扫 描 、 缓 存 刷 新 等 )。 而 对 于 陷入 IO 
或 者 执行 本 地 代码 的 线程 ， 回 收 器 会 阻止 其 返回 托管 环境 并 为 其 完成 相应 工作 。 因 此 ， 回 调 
协议 的 最 大 时 间 延 迟 便 是 赋值 器 执行 指定 操作 所 需 的 时 间 。 

优先 级 提升 。 母 庸 置疑 ， 实 时 垃圾 回收 器 在 堆 空 间 耗 尽 之 前 完成 回收 是 确保 应 用 程序 正 
常 执行 的 必要 条 件 。 但 是 ， 如 果 高 优先 级 线程 长 期 占据 处 理 器 而 导致 某 些 低 优 先 级 线程 无 法 
做 出 响应 ， 则 上 述 三 种 协议 〈 非 协同 时 段 、 最 后 离开 者 、 回 调 ) 都 无 法 正常 工作 。 此 时 的 解 
决 方案 是 临时 性 地 提升 低 优先 级 线程 的 优先 级 ， 直 到 回收 器 收 到 其 响应 为 止 。 


19.7 内存 碎片 控制 


实时 垃圾 回收 器 必须 控制 时 间 和 空间 的 消耗 上 界 。 不 幸 的 是 ， 随 着 时 间 的 推移 ， 内 存 碎 
片 会 逐渐 侵蚀 回收 器 的 空间 上 界 。 对 内 存 碎片 情况 的 分 析 不 可 避免 地 需要 依赖 应 用 程序 的 自 
身 行为 特征 ， 例 如 指针 密度 、 平 均 对 象 大 小 、 对 象 大 小 的 局 部 性 等 。 因 此 ， 实 时 回收 器 必须 
能 够 通过 某 种 方式 来 管理 和 限制 堆 的 碎片 率 。 一 种 显而易见 的 策略 是 进行 整理 ， 而 另 一 种 策 
略 是 使 用 离散 分 配 (以 子 对 象 或 者 子 数组 的 形式 进行 分 配 )， 该 方案 可 以 杜绝 外 部 碎片 ， 代 
价 是 引入 额外 (但 有 限 ) 的 内 部 碎片 ， 同 时 赋值 器 的 读 写 操作 在 访问 子 对 象 / 子 数组 时 也 会 
存在 一 定 的 额外 开销 。 本 节 我 们 将 分 别 对 这 两 种 策略 进行 介绍 。 

实时 回收 器 进行 并 发 整理 的 挑战 在 于 ， 如 何在 确保 赋值 器 访问 操作 始终 满足 严格 时 限 
要 求 的 前 提 下 实现 对 象 的 并 发 迁移 。 第 17 章 中 所 介绍 的 副本 复制 回收 器 以 及 Blelloch 和 
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Cheng[1999] 的 最 初 设计 明确 允许 并 发 复制 ， 但 它们 均 需 要 为 每 个 对 象 维护 两 个 副本 。 在 缺 
乏 严 格 一 致 性 保障 的 现代 多 处 理 器 环境 下 ， 保 持 多 个 副本 之 间 的 一 致 性 通常 需要 使 用 某 种 形 
式 的 锁 ， 特 别 是 对 于 volatile 域 。 除 此 之 外 ， 副 本 复制 回收 器 需要 通过 一 个 同步 的 终结 阶 
段 来 确保 所 有 赋值 器 线程 的 根 都 完成 转发 。 单 个 对 象 级 别 的 锁 通 常 不 会 带 来 较 大 问题 ， 而 对 
于 基于 页 保护 机 制 的 Compressor 和 Pauseless 回收 器 而 言 ， 其 同步 级 别 则 是 页 级 别 的 ， 赋 值 
器 不 仅 需要 付出 页 保护 陷阱 的 开销 ， 而 且 回 收 器 的 工作 模型 是 基于 工作 的 ， 除 此 之 外 ,在 阶 
段 切 换 完成 之 后 ， 赋 值 器 还 会 遭遇 陷阱 风暴 问题 ， 因 此 其 最 小 赋值 器 使 用 率 通 常 很 低 。 

如 果 回 收 算法 不 能 满足 无 锁 要 求 ， 则 意味 着 赋值 器 的 正常 执行 无 法 得 到 保障 ， 更 不 用 说 
满足 系统 的 时 限 要求 了 。 接 下 来 ,我们 将 介绍 几 种 并 发 整理 算法 ， 它 们 均 可 以 保证 赋值 器 的 
访问 操作 能 够 达到 无 等 待 或 者 无 锁 级 别 。 


19.7.1 Metronome 回收 器 中 的 增 量 整理 


Metronome 回收 器 最 初 是 作为 主体 非 复制 式 (mostly non-copy) 回收 需 来 设计 的 ， 因 为 
其 设计 者 认为 堆 中 极 少 出 现 外 部 碎片 。 该 回收 器 使 用 子 对 象 / 子 数组 来 将 大 对 象 /大 数组 拆 
分 为 多 个 内 存 块 ， 而 这 些 内存 块 也 是 应 用 程序 从 操作 系统 中 进行 分 配 的 最 大 连续 单元 。 这 一 
策略 在 很 大 程度 上 降低 了 以 减少 内 存 碎 片 为 目的 对 象 复制 操作 的 必要 性 。Bacon 等 [2003b] 
提出 了 一 种 分 析 框 架 ， 该 框架 可 以 确定 每 次 回收 过 程 需要 对 多 少 个 页 进行 碎片 整理 才能 确保 
赋值 器 永远 不 会 因为 内 存 分 配 而 陷 和 人 等 待 。 由 于 Metronome 回收 顺 是 增 量 式 的 ， 所 以 其 可 
以 在 所 有 赋值 器 线程 都 被 挂 起 时 执行 碎片 整理 ， 而 当 赋 值 右 线程 恢复 执行 时 ， 它 们 可 以 借助 
于 Brooks 式 间 接 屏障 来 执行 必要 的 转发 工作 。 与 此 同时 ， 赋 值 器 永远 不 会 感知 到 对 象 复制 
的 中 间 过 程 ， 其 唯一 的 开销 便 是 一 层 额 外 的 间接 屏障 ， 而 该 屏障 在 时 间 上 得 开销 是 有 界 的 。 
“税收 与 开支 ”调度 策略 将 Metronome 回收 器 扩展 为 并 发 回收 器 ， 但 其 并 不 会 执行 任何 形式 
的 整理 操作 。 

Bacon 等 [2003b] 的 分 析 框 架 会 依照 分 区 适应 分 配器 的 空间 大 小 分 级 (size class) KIS 
量 均匀 地 划分 碎片 整理 工作 (由 碎片 整理 目标 所 决定 )。 每 个 空间 大 小 分 级 将 关联 一 个 页 链 
表 而 非 对 象 链表 。 该 算法 对 一 个 空间 大 小 分 级 进行 碎片 整理 时 遵从 以 下 步 又 : 

1 ) 依照 页 中 存活 对 象 的 数量 进行 排序 ， 从 最 密集 到 最 稀 朴 。 

2 ) 将 首 个 未 填 满 页 ( 即 存活 对 象 密度 最 高 的 页 ) 作为 分 配 页 (allocation page)。 

3 ) 将 最 后 一 页 (存活 对 象 密度 最 低 的 页 ) 作为 待 整理 页 。 

4) 如 果 待 整理 页 中 的 存活 对 象 数量 小 于 某 一 阔 值 ， 且 待 整理 页 并 非 分 配 页 ， 则 回收 需 
将 待 整理 页 中 的 所 有 存活 对 象 迁移 到 分 配 页 的 空闲 内 存单 元 中 (如 果 当 前 分 配 页 被 填 满 ， 则 
填充 到 下 一 页 中 )。 

该 算法 在 本 质 上 是 将 最 稀 玻 页 中 的 对 象 迁移 到 密度 最 高 的 页 ， 且 能 够 以 最 小 的 对 象 移动 
代价 来 将 最 多 的 页 填 满 。 算 法 第 2 ) 步 中 所 选择 的 分 配 页 是 存活 对 象 密度 最 高 的 未 填 满 页 ， 
这 一 策略 可 能 会 降低 应 用 程序 的 局 部 性 ， 因 为 其 可 能 导致 新 分 配 的 相关 对 象 散 布 在 多 个 页 
中 。 针 对 这 一 问题 ， 我 们 可 以 为 分 配 页 的 填充 密度 设置 一 个 上 限 值 ， 从 而 确保 分 配 页 中 存在 
足够 的 空间 ， 以 保持 整个 程序 的 局 部 性 。 

指向 已 迁移 对 象 的 引用 将 在 后 续 的 追踪 阶段 得 到 扫描 以 及 重 定向 ， 因 此 当下 一 个 标记 阶 
段 结束 时 ， 上 一 个 回收 周期 的 已 迁移 对 象 便 可 得 到 释放 。 与 此 同时 ，Brooks 式 转发 屏障 可 
以 确保 赋值 器 能 够 访问 到 已 迁移 对 象 的 正确 副本 。 将 更 新 已 迁移 对 象 来 源 引 用 的 操作 推迟 到 
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下 一 个 标记 阶段 存在 三 方面 优势 : 首先 ， 无 需 引 入 额外 的 “修正 ”阶段 ; 其 次 ， 需 要 修正 的 
引用 数量 会 更 少 (已 经 死亡 的 对 象 便 无 需 进行 扫描 ); 最 后 ， 将 修正 操作 与 追踪 操作 相 结合 
有 助 于 提升 回收 器 的 局 部 性 。 


19.7.2 单 处 理 器 上 的 增 量 副 本 复制 


在 进一步 介绍 更 加 复杂 的 并 发 整理 策略 之 前 ， 我们 有 必要 强调 的 是 ,许多 实时 应 用 程序 
都 运行 在 柑 入 式 系统 中 ， 而 单 处 理 器 又 在 租 入 式 系统 中 占据 支配 地 位 。 在 单 处 理 器 上 保持 赋 
值 器 操作 的 原子 性 十 分 简单 〈 在 回收 器 或 者 其 他 赋值 器 线程 看 来 )， 只 需要 简单 地 禁止 调度 
器 中 断 或 者 只 允许 线程 在 安全 回收 点 进行 切换 (需要 确保 所 有 赋值 器 屏障 的 内 部 代码 都 不 包 
含 安全 回收 点 )。 如 果 在 这 一 环境 下 使 用 复制 式 回 收 器 ， 只 要 其 可 以 保证 赋值 器 能 够 访问 已 
复制 对 象 的 唯一 副本 (使 用 Brooks 式 间 接 屏 障 来 强制 赋值 器 满足 目标 空间 不 变 式 )， 或 者 确 
保 赋 值 器 能 够 同时 对 新 老 副 本 进行 更 新 〈 即 副本 复制 回收 ， 此 时 赋值 器 所 读 取 到 得 仍然 是 对 
象 的 上 日 有 副本 )， 回 收 器 便 可 自由 地 进行 对 象 复制 。 

Kalibera[2009] 对 副本 复制 回收 策略 与 基于 Brooks 式 写 屏障 的 复制 策略 进行 了 比较 ， 其 
运行 环境 为 基于 单 处 理 器 的 Java 实时 系统 。 其 副本 复制 策略 依然 会 以 常规 的 方式 为 所 有 对 
象 维护 转发 指针 ， 唯 一 的 不 同 之 处 在 于 ， 目 标 空间 新 副本 的 转发 指针 将 指 回 其 来 源 空间 的 对 
象 主体 (与 Brooks[1984] 不 同 )。 这 一 策略 可 以 简化 赋值 器 屏障 的 设计 并 提升 其 可 预测 性 : 
赋值 器 的 Read 操作 无 需 关 心 所 访问 的 对 象 究竟 位 于 来 源 空间 还 是 目标 空间 ， 其 可 以 简单 地 
从 任意 一 个 副本 中 读 取 数据 ， 而 write 操作 则 需要 同时 更 新 两 个 副本 以 确保 它们 之 间 的 一 致 
性 。 算 法 19.7 展示 了 该 屏障 的 伪 代 码 (忽略 了 对 并 发 扫描 的 必要 支持 )。 考 良和 置疑 ， 免 除了 
每 个 读 操 作 的 转发 开销 将 大 幅 提升 程序 的 性 能 ， 而 双 写 操作 的 开销 在 大 多 数 情况 下 都 是 微 不 
足 道 的 ， 因 为 转发 指针 通常 指向 其 自身 ， 所 以 两 次 写 操 作 的 目标 地 址 往往 相等 。 

对 于 多 人 处理 器 情况 下 的 并 发 整理 ,我 们 很 难 想到 一 种 直接 的 方法 来 实现 原子 化 的 Read 
与 Write 操作 ， 因 此 ， 接 下 来 我 们 便 必 须 在 考虑 赋值 器 之 间 、 赋 值 器 与 回收 器 之 间 引 入 更 细 
粒度 的 同步 。 


算法 19.7 单 处 理 器 环境 下 的 副本 复制 算法 


atomic Read(p, i): 
return p[i] 


2 
3 
4 atomic Write(p, i, value): /* Dp 既 可 能 是 对 象 主体 ， 也 可 能 是 其 副本 */ 
5 /* 此 处 也 需要 删除 屏障 相关 代码 来 支持 快照 回收 */ 

6 pli] + value 
7 r + forwardingAddress(p) 
8 r[i] + value 
9 


/* 此 处 也 需要 插入 屏障 来 支持 增 量 更 新 回收 */ 


19.7.3 Stopless 回收 器 : 无 锁 垃 圾 回收 


Pizlo 等 [2007] 在 其 Stopless 回收 器 中 提出 了 一 种 并 发 整理 算法 ， 即 使 回收 器 正在 进行 
并 发 整理 ， 该 算法 仍 可 以 确保 赋值 器 操作 (包括 内 存 分 配 以 及 堆 访 问 操作 ) 达到 无 锁 级 别 
的 前 进 保障 。 与 Blelloch 和 Cheng[1999] 不 同 ，Stopless 回收 器 并 不 要 求 赋值 器 同时 更 新 
对 象 的 新 旧 副 本 以 保持 其 一 致 性 ， 而 是 通过 某 种 协议 来 确保 赋值 器 只 需 更 新 一 个 确定 的 副 
本 。Stopless 回收 器 的 创新 之 处 在 于 ， 其 会 为 每 个 正在 复制 的 对 象 创 建 一 个 “ 宽 ” 版 本 中 间 
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对 象 ， 并 为 该 中 间 对 象 的 每 个 域 都 关联 一 个 状态 字 ， 而 程序 则 可 以 使 用 Compareandswapwide 
原子 操作 来 同步 地 复制 对 象 的 域 。 每 个 域 的 状态 字 将 与 该 域 的 值 一 起 原子 化 地 更 新 ， 状 态 
字 的 值 将 反映 其 对 应 域 最 新 数据 所 处 的 位 置 (位 于 以 下 三 个 位 置 之 一 : 来 源 空 间 的 原始 副 
本 、 宽 副本 、 目 标 空 间 中 的 最 终 副本 )。 与 Blelloch 和 Cheng[1999] 类 似 ， 该 算法 也 需要 在 
每 个 对 象 的 头 部 维护 一 个 Brooks 式 转 发 指针 ， 该 指针 将 指向 宽 副 本 或 者 目标 空间 副本 。 在 
整理 阶段 ， 赋 值 器 线程 和 回收 器 线程 将 通过 竞争 的 方式 创建 宽 副 本 ， 具 体 的 竞争 方式 是 使 用 
compareandswap 操作 来 安装 转发 指针 。 

当 对 象 的 宽 副 本 创建 完成 且 其 转发 指针 已 经 指向 其 宽 副 本 之 后 ， 赋 值 器 将 只 对 宽 副 
本 进行 更 新 。 宽 副本 中 每 个 域 所 对 应 的 状态 字 将 (通过 读 / 写 屏障 ) 指引 赋值 器 究竟 应 当 
读 / 写 哪个 副本 中 的 域 ,状态 字 的 值 可 能 为 如 下 三 种 : inoriginal 、inwide、incopy。 每 
个 状态 字 的 初 值 均 为 inoriginal， 该 值 意味 着 赋值 器 应 当 从 来 源 空间 的 原始 副本 中 读 取 对 
应 域 的 值 。 所 有 的 更 新 操作 都 将 基于 宽 副 本 执行 : 对 于 回收 器 而 言 ， 其 需要 将 原始 副本 中 
的 每 个 域 复 制 到 宽 副 本 中 ， 而 对 于 赋值 器 而 言 ， 其 写 操作 将 直接 更 新 宽 副 本 。 写 操作 需要 
使 用 compareanaswapwiae 来 完成 ， 该 操作 不 仅 会 设置 宽 副 本 中 域 的 值 ， 还 会 同时 将 域 的 
状态 字 更 新 为 inwide。 回 收 器 在 更 新 宽 副 本 中 的 某 个 域 之 前 必须 确保 其 所 对 应 的 状态 字 为 
inoriginal， 如 果 失 败 ， 则 意味 着 赋值 器 已 经 更 新 了 该 域 ， 回 收 器 可 以 直接 跳 过 对 该 域 的 
更 新 。 

当 某 一 对 象 宽 副 本 中 所 有 域 的 状态 都 已 成 为 iawiae 之 后 (不 耸 是 由 回收 器 完成 ， 还 是 
由 赋值 器 完成 )， 回 收 器 便 可 在 目标 空间 中 为 其 分 配 最 终 的 “ 罕 ” 副 本 ， 并 将 宽 副 本 的 转发 
指针 设置 为 窄 副本 的 引用 。 此 时 同一 对 象 将 在 堆 中 存在 三 个 版 本 : 来 源 空 间 中 的 旧 有 对 象 
(其 转发 指针 指向 宽 副 本 )、 包 含 最 新 数据 的 宽 副 本 (其 转发 指针 指向 目标 空间 副本 )、 目 标 空 
间 中 尚未 初始 化 的 窄 副本。 回收 器 会 将 宽 副 本 中 的 每 个 域 并 发 复制 到 目标 空间 的 罕 副 本 中 ， 
对 于 宽 副 本 每 一 个 刚刚 完成 复制 的 域 ， 回 收 器 需要 使 用 compareandswapwide 操作 来 确保 该 
域 并 未 发 生变 化 ， 同 时 将 该 域 所 对 应 的 状态 字 设 置 为 incopy， 如 果 失 败 ， 表示 在 回收 器 执 
行 的 复制 过 程 中 赋值 器 更 新 了 该 域 ， 此 时 回收 器 便 需 进行 重 试 。 如 果 赋 值 器 遇 到 宽 副 本 中 状 
态 字 为 incopy 的 域 ， 其 需要 通过 转发 指针 来 访问 目标 空间 中 的 罕 副 本 。 

由 于 Stopless 回收 器 能 够 确保 得 到 更 新 的 域 永 远 是 最 新 的 域 ， 所 以 其 能 够 在 不 使 用 锁 
的 前 提 下 支持 Java 的 volatile 域 。 该 回收 器 还 能 模拟 应 用 程序 级 别 的 原子 操作 ， 例 如 赋 
值 器 针对 特定 域 的 比较 并 交换 操作 ， 其 具体 细节 可 以 参见 Pizlo 等 [2007]。 该 策略 所 遇 到 
的 唯一 问题 是 ， 其 无 法 实现 双 字 域 (例如 Java 中 得 long) 及 其 状态 字 的 原子 操作 ， 因 为 
CompareAndswapWide 操作 无 法 覆盖 到 双 字 及 其 相 邻 的 状态 字 。 针 对 这 一 问题 ，Stopless 的 作 
者 提出 了 一 种 基于 标准 compareandswapwide 来 模拟 n 路 比较 并 交换 操作 的 技术 [Harris 等 , 
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的 连续 碎片 来 分 配 宽 副 本 ， 从 而 确保 宽 副 本 中 的 每 个 数据 域 与 其 状态 字 相 邻 。 在 Stopless E 
收 需 中 ， 宽 副本 所 占据 的 空间 将 会 保留 到 下 一 轮回 收 的 标记 阶段 结束 之 后 ， 此 时 回收 器 才能 
确保 所 有 的 指针 都 已 转发 到 目标 空间 。 


19.7.4 Staccato 回收 器 : 在 赋值 器 无 等 待 前 进 保障 条 件 下 的 尽力 整理 


Metronome 回收 器 需要 在 赋值 器 线程 被 挂 起 的 回收 器 时 间 片 中 进行 整理 ， 而 
Staccato[McCloskey 等 ，2008] 则 可 以 在 不 使 用 锁 的 前 提 下 实现 并 发 整理 ， 且 在 一 般 情 况 下 
也 无 需 使 用 诸如 compareandswap 的 原子 操作 ， 即 使 是 对 于 内 存 顺序 性 保障 较 弱 的 多 处 理 器 

台 也 不 例外 。 该 算法 避免 陷入 人 原子 操作 风暴 的 策略 是 仅 移 动 少 量 对 象 ( 仅 在 回收 存活 对 象 
较为 稀 朴 的 页 时 才 需 要 ) 以 及 随机 选择 待 整理 页 。 

Staccato 回收 器 继承 了 Metronome 回收 器 的 Brooks 式 间 接 屏 障 ， 其 同样 也 在 每 个 对 象 
的 头 部 放置 一 个 转发 指针 。 该 回收 器 同样 依赖 基于 非 协同 握手 的 同步 机 制 : 赋值 器 需要 以 固 
定 的 间隔 〈 例 如 在 每 个 安全 回收 点 ) 来 获知 全 局 状态 的 变更 (对 于 诸如 PowerPC 等 顺序 性 保 
障 较 弱 的 处 理 器 ， 赋 值 器 需要 先 执行 内 存 屏障 )。 回 收 器 会 在 转发 指针 中 保留 一 位 以 表示 其 
是 否 正 处 于 复制 过 程 中 (Java 对 象 通 常 依照 字 来 对 齐 ， 因 而 回收 器 可 以 复 用 指针 的 最 低位 )。 
这 一 COPYING 位 以 及 转发 指针 可 以 通过 CompareAndSwap 或 者 CompareAndSet 原子 化 地 进行 修 
改 。 当 需要 移动 某 一 对 象 时 ， 回 收 器 需要 执行 如 下 操作 : 

1 ) 使 用 compareAndSwap/CompareAndset 原子 化 地 设置 copyine 位 。 由 于 赋值 器 在 访问 
转发 指针 时 并 不 会 使 用 原子 操作 ， 所 以 其 可 能 需要 一 定时 间 才 能 感知 到 这 一 变更 。 

2) 等 待 所 有 赋值 器 线程 都 完成 非 协 同 握手 ， 目 的 是 确保 所 有 赋值 器 都 可 以 感知 到 
coPYING 位 的 变化 。 

3 ) 执行 读 内 存 屏 障 来 确保 回收 器 可 以 感知 到 赋值 器 在 完成 非 协 同 握手 之 前 的 更 新 操作 
(只 有 对 于 顺序 性 保障 较 弱 的 处 理 器 才 需 如 此 )。 

4 ) 分 配 副本 并 将 原始 对 象 中 的 数据 复制 到 其 中 。 

5) 执行 写 内 存 屏障 来 确保 刚刚 写 入 的 数据 全 局 可 见 (只 有 对 于 顺序 性 保障 较 弱 的 处 理 
器 才 需 如 此 )。 

6 ) 发 起 非 协同 握手 并 等 待 所 有 赋值 器 线程 都 完成 握手 ， 赋 值 器 将 在 应 答 过 程 中 执行 读 
内 存 屏障 ， 目 的 是 确保 其 能 够 感知 到 已 经 写 人 副本 的 数据 。 

7 ) 使 用 compareandswap/Compareandset 将 原始 对 象 的 转发 指针 设置 为 新 副本 的 地 址 ， 
同时 清空 copyine 位 。 该 操作 相当 于 是 尝试 将 对 象 的 移动 “提交 ”"， 如 若 失败 ， 则 意味 着 赋 
值 器 已 经 在 某 一 时 刻 修改 了 对 象 ， 此 时 移动 将 中 止 。 

回收 器 通常 会 尝试 移动 一 批 对 象 ， 因 此 基于 非 协 同 握手 的 同步 操作 的 开销 将 会 得 到 
Sy PE, 如 算法 19.8 中 的 copyobjects 方法 所 示 。 该 方法 的 输入 参数 为 竺 移动 对 象 集合 
candidates， 而 其 返回 结果 则 为 移动 失败 的 对 象 集合 aborted, 


算法 19.8 Staccato 回收 器 中 的 复制 操作 以 及 (复制 过 程 中 的 ) 赋值 器 屏障 


copyObjects(candidates): 
for each p in candidates 
/* RE COPYING 位 */ 


waitForRaggedSynch(readFence) /* 确保 所 有 赋值 器 线程 均 能 感知 到 COPYING 位 的 变化 */ 


1 
2 
4 CompareAndSet(&forwardingAddress(p), p, p | COPYING) 
5 
6 readFence() /* 确保 回收 器 能 够 感知 到 赋值 器 在 cas 操作 之 前 的 变更 */ 


364 #19 # 


7 for each p in candidates 

8 r + allocate(length(p)) /* 分 配 副本 */ 
9 move(p, r) /* 复制 数据 */ 
10 forwardingAddress(r) /* 副本 的 转发 指针 将 指向 其 自身 */ 
n add(replicas, r) /* 记录 副本 */ 
12 writeFence() /* 刷新 写 操作 以 确保 赋值 器 感知 到 回收 器 修改 的 数据 */ 
B waitForRaggedSynch(readFence) /* 确保 赋值 器 能 够 感知 到 副本 / 
“ for each (p in candidates, r in replicas) 

15 /* 尝试 “提交 ”副本 */ 
16 if not CompareAndSet(&forwardingAddress(p), p | COPYING, r) 

” /* 提交 失败 ， 进 行 处 理 */ 

18 free(r) /* 将 放弃 提交 的 副本 释放 */ 
19 add(aborted, p) /* 记录 复制 失败 的 对 象 */ 
20 return aborted 


2 Access(p): 


z3 r + forwardingAddress(p) /* 加 载 转发 指针 */ 
24 if r & COPYING = 0 

5 return r /* 返回 转发 指针 的 值 ， 除 非 对 象 正 处 于 复制 过 程 中 */ 
26 /* 尝试 将 复制 过 程 中 止 */ 
%7 if CompareAndSet(&forwardingAddress(p), r, p) 

28 return p /* 成 功 将 复制 过 程 中 止 */ 
29 /* 设置 失败 ， 意 味 着 回收 器 提交 成 功 ， 或 者 其 他 赋值 器 线程 已 经 将 复制 中 止 */ 
x0 atomic /* 强制 重新 加 载 当前 的 转发 指针 值 forwardingAddress (p) */ 
31 r + forwardingAddress(p) 

32 return r 


33 

au Read(p, i): 

35 p 全 Access(p) 
% return p[il 


3 Write(p, i, value): 
39 p + Access(p) 
40 pli] + value 


与 此 同时 ， 赋 值 器 线程 访问 对 象 (包括 读 取 或 者 修改 对 象 的 状态 ) 时 需要 执行 如 下 操作 : 

1) 加 载 转发 指针 。 

2) MARMARA coprine 位 并 未 设置 ， 则 直接 访问 转发 指针 所 指向 的 地 址 。 

3) 和 否则， 尝试 使 用 compareandset 操作 来 清空 coPYING 位 (即将 其 改 回 原本 的 转发 指针 
值 )， 目 的 是 中 止 回 收 器 复制 过 程 。 

4) 如 果 compareandset 操作 成 功 ， 则 使 用 (copyine 位 已 经 清空 的 ) 转发 指针 来 作为 对 
象 指 针 。 

5) 如 果 compareandset 操作 失败 ， 要 么 是 因为 回收 器 已 经 成 功 提交 了 副本 ， 要 么 是 由 
于 其 他 赋值 器 线程 已 经 中 止 了 复制 。 此 时 赋值 器 线程 需要 使 用 原子 读 操 作 (对 于 顺序 性 保障 
较 弱 的 处 理 器 才 需 如 此 ) 来 确保 其 能 够 读 取 到 当前 真正 的 转发 指针 值 ( 即 由 回收 器 或 者 其 他 
赋值 器 线程 所 设置 的 值 )。 

算法 19.8 中 的 access 屏障 辅助 函数 展示 了 上 述 过 程 ，Reaa 以 及 write 操作 均 需 调用 该 
函数 。 

需要 指出 的 是 ， 如 果 在 access 函数 中 使 用 compareandswap 来 替代 Compareanaset, E 
返回 值 即 为 转发 指针 的 当前 值 ， 从 而 节省 了 一 次 原子 读 操作 ， 如 算法 19.9 所 示 。 如 果 该 操 
作成 功 ， 则 转发 指针 的 copyine 位 将 被 清空 。 
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算法 19.9 Staccato 回收 器 : 〈 复 制 过 程 中 的 ) 基于 CompareAndswap 的 堆 访 问 操作 


Access(p): 
r + forwardingAddress(p) /* 加 载 转发 指针 */ 
if r & COPYING = 0 

/* 返回 转发 指针 的 值 ， 除 非 对 象 正 处 于 复制 过 程 中 * 


~ 


r + CompareAndSwap(&forwardingAddress(p), r, p) 
/* 如 若 失败 ， 则 意味 着 回收 器 提交 成 功 ， 或 者 其 他 赋值 器 线程 已 经 将 复制 中 止 ， 此 时 工 的 值 必然 正确 */ 
return r & “COPYING /* 如 果 成 功 ， 则 意味 着 当前 线程 中 止 成 功 ， 此 时 需要 清空 COPYING 位 */ 


return 工 
5 /* 尝试 将 复制 过 程 中 止 */ 

McCloskey “ [2008] 指出 ， 频 繁 得 到 访问 的 对 象 将 很 难 完 成 迁移 ， 因 为 其 迁移 过 程 很 
容易 被 中 止 。 针 对 这 一 问题 ， 他 们 提出 的 方案 是 : 如 果 回 收 器 探测 到 此 类 对 象 ， 则 应 将 其 所 
在 的 页 作为 整理 的 目标 页 。 也 就 是 说 ， 回 收 器 将 增 大 此 类 对 象 所 在 页 的 存活 对 象 密度 ， 而 不 
是 将 其 迁移 到 其 他 页 。 

另外 ， 如 果 赋 值 器 所 访问 的 对 象 恰 好 集中 在 回收 器 尝试 移动 的 对 象 集 合 中 ， 则 在 短期 
内 调用 compareandswap 操作 的 次 数 将 会 增多 ， 进 一 步 可 能 会 导致 最 小 赋值 器 使 用 率 的 下 降 。 
但 这 一 情况 通常 不 会 发 生 ， 因 为 待 迁移 对 象 通常 位 于 存活 对 象 密度 较 低 的 页 中 ， 所 以 在 同一 
时 刻 分 配 的 、 在 空间 上 较为 聚集 的 对 象 通常 不 存在 整体 迁移 可 能 性 。 除 此 之 外 ， 回 收 器 也 可 
将 整理 过 程 划分 为 多 个 阶段 ， 从 而 尽量 缩短 复制 时 间 窗 、 降 低 复制 过 程 被 中 止 的 概率 。 另 
外 ， 回 收 器 在 每 个 复制 阶段 中 也 可 随机 选择 待 整理 页 集合 。 最 后 ， 如 果 同 时 运行 多 个 整理 线 
E (不 需要 以 同步 方式 运行 ， 但 仍 需 满 足 最 小 赋值 器 使 用 率 的 要 求 )， 则 得 到 执行 的 赋值 器 
线程 数量 将 会 减少 ， 相 应 地 ， 复 制 过 程 被 中 止 的 概率 也 会 降低 。 


19.7.5 Chicken 回收 器 : 在 赋值 器 无 等 待 前 进 保障 条 件 下 的 尽力 整理 (x86 平台 ) 


Pizio 等 [2008] 独立 提出 了 一 种 与 Staccato 回收 器 类 似 的 解决 方案 ， 即 Chiken [el ika 
(如 算法 19.10 所 示 )， 但 其 需要 依赖 x86/x84 ~ 64 的 更 强 的 内 存 一 致 性 模型 (参见 表 13.1 )。 
这 意味 着 只 有 赋值 器 写 操作 才 需 要 中 止 复 制 (x86 平台 上 的 读 操作 天 然 满足 原子 操作 顺序 )， 
且 非 协同 握手 不 需要 执行 读 屏障 。Staccato 回收 器 和 Chiken 回收 器 均 可 以 确保 赋值 器 线程 
的 读 写 操作 满足 无 等 竺 要求， 回收 器 的 复制 操作 同样 满足 无 等 竺 要求 ， 但 其 可 能 会 被 赋值 器 
线程 中 止 。 

算法 19.10 Chicken 回收 器 中 的 复制 操作 以 及 (复制 过 程 中 的 ) 赋值 器 屏障 


1 copyObjects(candidates): 

2 for each p in candidates 

3 /* 设置 COPYING 位 */ 

4 forwardingAddress(p) 全 p | COPYING 

5 waitForRaggedSynch() /* 确保 所 有 赋值 器 线程 均 感知 到 COPYING 位 的 变化 */ 
6 for each p in candidates 

7 

8 

9 


r + allocate(length(p)) /* 分 配 副本 */ 
move(p, r) /* 复制 数据 */ 
forwardingAddress(r) /* 副本 的 转发 指针 将 指向 其 自身 */ 
10 /* 尝试 “提交 ”副本 */ 
u if not CompareAndSet(&forwardingAddress(p), p | COPYING, r) 
2 /* 提交 失败 ， 进 行 处 理 */ 
B free(r) /* BRAM BARA */ 
u add(aborted, p) /* 记录 复制 失败 的 对 象 */ 


15 return aborted 
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wv Read(p, i): 
18 r + forwardingAddress(p) /* 加 载 转发 指针 */ 
19 return r[|i] 


a Write(p, i, value): 

n r + forwardingAddress(p) /* 加 载 转发 指针 */ 
2 if r & COPYING Æ 0 /* 返回 转发 指针 的 值 ， TE */ 
i 尝试 将 复制 过 程 中 止 */ 
5 CompareAndSet(&forwardingAddress(p), r, r & ~COPYING) 

26 /* 设置 失败 ， 意 味 着 回收 器 提交 成 功 ， 或 者 其 他 赋值 器 线程 已 经 将 复制 中 止 */ 
Pa r + forwardingAddress(p) /* 加 载 forwardingAddress (p) */ 
28 r[i] + value 


19.7.6 Clover 回收 器 : 赋值 器 乐观 无 锁 前 进 保障 下 的 可 靠 整 理 


Pizlo 等 还 提出 另 一 种 回收 器 ， 即 Clover 回收 器 ， 该 回收 需 能 够 确保 赋值 句 访 问 操作 在 
绝 大 多 数 情况 下 均 满 足 无 锁 要求 〈 极 少数 情况 除外 )， 同 时 也 可 保证 回收 融 复 制 操 作 满足 无 
锁 要 求 。 当 赋值 器 和 回收 器 之 间 产 生 竞争 时 ，Clover 回收 器 会 探测 到 这 一 现象 并 将 赋值 器 线 
程 阻塞 ， 直 到 复制 操作 完成 为 止 。Clover 回收 器 会 将 某 一 随机 数 a 写 入 已 完成 复制 的 域 中 ， 
并 假定 赋值 器 永远 不 会 将 a 写 入 堆 中 。 为 达到 这 一 目标 ， 当 赋值 器 尝试 将 某 个 域 的 值 修改 为 
ax 时 ， 写 屏障 将 捕获 这 一 操作 并 将 赋值 器 线程 阻塞 。 

在 回收 器 完成 对 象 某 个 域 的 复制 之 后 ， 其 需要 使 用 compareandaswap 操作 原子 化 地 将 该 
域 的 值 设置 为 a。 如 果 赋 值 器 在 访问 该 域 时 发 现 其 值 为 a， 则 必须 通过 转发 指针 读 取 该 域 的 
最 新 值 (如 果 该 对 象 的 副本 尚未 创建 ， 则 转发 指针 依然 指向 原 有 对 象 ， 如 果 已 经 创建 ， 则 转 
发 指针 指向 新 创建 的 副本 )。 即 使 在 复制 过 程 之 前 该 域 的 值 原本 就 是 a， 该 策略 依然 能 够 正 
常 工作 。 

当 赋 值 器 尝试 更 新 某 一 值 为 a 的 域 时 ， 其 必须 通过 转发 指针 来 更 新 该 域 的 最 新 位 置 。 如 
果 赋 值 器 确实 要 将 某 一 域 的 值 更 新 为 a， 则 其 必须 陷入 阻塞 ， 直 到 回收 器 完成 该 对 象 的 复制 
为 止 (只 有 这 样 才能 避免 其 他 赋值 器 线程 将 该 域 的 状态 误 认 为 已 复制 ， 从 而 读 取 到 副本 中 尚 
未 完成 复制 的 错误 数据 )。 算 法 19.11 展示 了 Clover 回收 器 的 复制 过 程 以 及 赋值 器 屏障 的 大 
致 流程 。 


算法 19.11 Clover 回收 器 中 的 复制 操作 以 及 《复制 过 程 中 的 ) 赋值 器 屏障 





1 copySlot(p, i): 
2 repeat 

3 value + pli] 

4 r + forwardingAddress(p) 

5 r[i] + value 

6 until CompareAndSet(ép[i], value, æ) 
7 

8 

9 


Read(p, i): 
value + pli] 
10 if value =a 
u r + forwardingAddress(p) 
2 value + rļ[i} 
13 return value 


5 Write(p, i, newValue): 
16 if newValue = a 
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7 /* 陷入 阻塞 ， 直 到 回收 器 完成 复制 为 止 */ 


18 repeat 

19 oldValue + pli] 

2 if oldValue = & 

a r + forwardingAddress(p) 
2 r[i] 全 newValue 

z break 


u until CompareAndSet(&src|i], oldValue, newValue) 


对 于 某 些 类 型 而 言 ， 经 过 合理 选择 的 a 值 能 够 避免 与 该 类 型 的 任意 数值 发 生 冲 突 : 指针 
通常 存在 一 些 永 远 不 会 用 到 的 位 ， 而 浮 点 数 则 通常 不 会 是 NaN 值 (除非 程序 在 运行 时 发 生 
浮 点 数 计算 错误 )。 而 对 于 其 他 类 型 ，a 值 的 选择 应 当 尽 量 避 免 与 程序 所 使 用 的 值 发 生 冲 突 。 
Pizlo 等 [2008] 创造 性 地 提出 了 一 种 方案 ， 该 方案 几乎 可 以 确保 a 的 值 不 会 与 程序 所 使 用 的 
数据 发 生 冲 突 : 他 们 使 用 处 理 器 所 支持 的 宽度 最 大 的 Compareandswapwide 操作 来 试 着 一 次 
性 复制 多 个 域 。 例 如 ， 现 代 x86 ~ 64 处 理 器 支持 128 位 的 compareandswapwide 操作 ， 因 此 
由 a 值 造成 冲突 的 概率 便 会 低 至 2"*。 但 这 也 意味 着 每 个 read/write 操作 在 执行 a 值 检 测 
时 必须 对 目标 地 址 所 在 的 128 位 内 存 进行 检查 。 


19.7.7 Stopless 回收 器 、Chicken 回收 器 、Clover 回收 器 之 间 的 比较 


Pizlo 等 [2008] 将 Chicken 回收 器 、Clover 回收 顷 与 非 整 理 式 并 发 标记 -清扫 回收 器 进 
行 了 比较 ， 除 此 之 外 他 们 还 进一步 比较 了 较 早 提出 的 Stopless 回收 器 。 定 性 而 言 ，Stopless 
回收 器 无 法 保证 回收 器 的 顺利 执行 ， 因 为 赋值 器 频繁 更 新 宽 副本 中 某 一 域 的 操作 可 能 导致 复 
制 操作 被 无 限期 推迟 。Chicken 回收 器 可 以 确保 回收 器 的 顺利 执行 ， 但 其 代价 是 某 些 复 制 操 
作 可 能 会 被 中 止 。 尽 管 Pizlo 等 声称 Clover 回收 器 能 够 确保 回收 器 的 顺利 执行 ， 但是， 如 果 
回收 器 不 断 尝 试 向 某 一 赋值 器 频繁 更 新 的 域 中 写 入 a 值 ， CompareAndSwap 操作 便 可 能 会 连续 
写 人 失败 。 

三 种 回收 算法 均 致 力 于 赋值 器 堆 访 问 操作 的 无 锁 前 进 保障 ， 但 彼此 之 间 存 在 细微 差 
别 。Chicken 回收 器 能 够 保证 赋值 器 的 读 写 操作 均 可 以 达到 无 等 待 级 别 ， 而 Clover 回收 器 和 
Stopless 回收 器 则 只 能 保证 写 操作 达到 无 锁 级 别 ， 读 操作 则 需要 执行 额外 的 分 支 。Clover 的 
无 锁 写 操作 只 是 乐观 性 的 ， 因 为 堆 写 操 作 有 可 能 需要 等 待 回 收 器 的 复制 操作 执行 完毕 。 

在 Clover 回收 器 中 ， 对 象 的 复制 过 程 永远 不 会 被 中 止 。 对 于 Stopless 回收 器 ， 如 果 在 
整理 阶段 中 两 个 或 者 多 个 赋值 器 线程 在 几乎 相同 的 时 间 更 新 相同 的 域 ， 则 整理 过 程 很 可 能 被 
中 止 ( 详 见 Pizlo 等 [2007])。 相 比 之 下 ，Chicken 回收 器 的 处 理 方式 则 稍 显 粗暴 : 任何 针对 
正在 复制 的 对 象 的 写 操作 都 会 将 复制 过 程 中 止 。 

通过 基准 应 用 程序 的 测试 结果 表明 ， 在 上 述 三 种 回收 器 以 及 非 整 理 式 并 发 标记 - 清扫 
回收 器 中 ， 后 者 拥有 最 高 的 吞吐 量 (因为 其 读 写 屏 障 要 简单 得 多 )。 用 于 测试 的 复制 式 回 收 
器 均 需 要 在 整理 阶段 开始 时 使 用 Arnold 和 Ryder[2001] 的 热 拔 捅 编译 代码 (hot-swapping 
compiled code) 技术 安装 复制 操作 的 专用 屏障 。Chichen 回收 器 的 速度 最 快 (复制 时 的 执 
行 速度 会 降低 到 原来 的 三 分 之 一 9), 但 其 大 量 复 制 操作 会 被 中 止 ，Clover 回收 器 的 速度 次 
之 (复制 时 的 执行 速度 会 降低 到 原来 的 五 分 之 一 )，Stopless 回收 器 最 慢 (复制 时 的 执行 速 
度 会 降低 到 原来 的 十 分 之 一 )。 所 有 处 理 器 均 能 够 在 六 核 多 处 理 器 上 表现 良好 。Clover 回收 
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器 和 Stopless 回收 器 均 会 因为 复制 过 程 中 吞吐 量 的 降低 而 影响 对 实时 事件 的 响应 速度 ， 而 
Chicken 回收 器 的 响应 速度 则 好 得 多 ， 因 为 其 赋值 器 线程 可 以 在 必要 情况 下 快速 中 止 回收 融 
的 复制 操作 。 


19.7.8 ”离散 分 配 


上 述 针对 实时 系统 整理 策略 的 讨论 表明 ， 对 于 任何 希望 通过 碎片 整理 来 保障 空间 边界 的 
实时 回收 器 ， 其 必须 牺牲 一 定 的 吞吐 量 和 响应 速度 来 确保 将 堆 的 碎片 化 程度 控制 在 可 以 接受 
的 范围 内 。Chichen 回收 器 和 Staccato 回收 需 能 够 保证 赋值 器 的 推 访问 操作 达到 无 等 待 级 别 ， 
但 其 代价 是 某 些 复制 操作 可 能 会 被 中 止 ; Stopless 回收 器 和 Clover 回收 需 能 够 提供 更 强 的 空 
间 保 障 ， 但 其 却 只 能 保证 赋值 器 的 堆 访问 操作 达到 更 弱 的 无 锁 级 别 。 具 有 硬 空 间 限 制 的 实时 
回收 器 可 能 无 法 接受 这 一 折 中 结果 。 

正 因 如 此 ，Siebert 才 一 向 主张 将 对 象 分 配 在 〈 物 理 上 或 者 逻辑 上 ) 不 连续 的 、 固 定 大 
小 的 内 存 块 中 ， 并 以 此 限制 外 部 碎片 的 总 量 [Siebert, 1998, 2000, 2010]. Siebert 在 其 
Jamaica Java 实时 系统 虚拟 机 中 使 用 了 这 一 策略 。Jamaica 虚拟 机 会 将 对 象 拆 分 为 一 组 固定 
大 小 的 子 对 象 (oblet) 的 链表 ， 从 链表 头 部 开始 ， 访 问 下 一 级 子 对 象 都 需要 经 由 上 一 级 子 对 
象 。 这 一 布局 方式 将 导致 赋值 器 访问 对 象 域 所 需 的 时 间 正 比 于 该 域 的 索引 号 。 类 似 地 ， 数 组 
也 是 由 多 个 子 数 组 (arraylet) 以 二 叉 树 方式 组 织 而 来 ， 其 最 终 形态 将 是 类 似 于 字典 树 (trie 
tree) 的 数据 结构 [Fredkin，1960]。 因 此 ， 访 问 数 组 中 某 一 元 素 所 需 的 时 间 将 正比 于 数组 大 
小 的 对 数 。 该 策略 的 主要 问题 在 于 访问 数组 元 素 的 开销 会 发 生变 化 ， 因 而 其 最 差 情况 下 的 执 
行 时 间 分 析 需 要 依赖 (或 者 限制 ) 赋值 器 能 够 访问 的 数组 的 静态 大 小 。 但 是 ，Java 中 数组 的 
大 小 是 其 本 身 的 动态 属性 ， 因 而 即使 数组 的 大 小 可 以 静态 预知 ， 我 们 也 无 法 证 明 出 程序 的 通 
用 空间 上 界 。 这 一 信息 的 缺失 将 导致 树 形 数组 的 访问 时 间 上 限 只 能 根据 应 用 程序 可 能 分 配 的 
最 大 数组 来 进行 估算 ， 如 果 连 最 大 数组 的 长 度 也 无 法 预 估 ， 则 只 能 进一步 根据 整个 堆 的 大 小 
来 进行 估算 。 

针对 这 一 问题 ，Pizlo 等 [2010b] 将 Metronome 回收 器 所 用 到 的 串联 子 数组 (spine-based 
arraylet) 分 配 策略 与 Jamaica 虚拟 机 中 的 离散 分 配 策略 相 结合 ， 并 称 之 为 Schism FLW ai. 
由 于 对 象 和 数组 均 会 以 固定 大 小 的 分 片 作为 分 配 单元 ， 所 以 整个 系统 便 无 需 关 心 外 部 碎片 问 
题 。 除 此 之 外 ， 对 象 和 数组 的 访问 均 存 在 强 时 间 上 界 : 访问 对 象 中 某 一 域 所 需 的 间接 步骤 将 
是 静态 可 知 的 〈 取 决 于 域 的 索引 号 )， 而 数组 中 元 素 的 访问 则 需要 经 由 串联 索引 (spine) 来 访 
问 特定 的 子 数组 。 如 果 进 行 一 阶 近似 〈 且 忽略 高 速 缓存 效 应 )， 则 对 象 与 数组 的 访问 时 间 均 
为 常量 。Schism 回收 器 分 配 离散 对 象 以 及 离散 数组 的 策略 如 图 19.10 所 示 。 对 象 以 及 数组 将 
由 堆 中 一 个 “哨兵 ”分 片 来 表示 。 每 个 对 象 或 者 数组 都 会 包含 两 个 头 部 字 ， 一 个 用 于 垃圾 回 
收 ， 另 一 个 将 包含 类 型 信息 。 用 于 表示 对 象 或 者 数组 的 哨兵 分 片 将 是 这 两 个 头 部 字 的 载体 ， 
除 此 之 外 ， 该 分 片 还 包括 一 些 额外 的 头 部 字 来 记录 其 剩余 结构 信息 。 所 有 指向 对 象 或 者 数组 
的 引用 均 为 指向 哨兵 分 片 的 指针 。 

对 象 将 以 子 对 象 链表 的 方式 布局 ， 如 图 19.10a 所 示 。 对 于 数组 而 言 ， 如 果 其 能 够 容纳 
于 单个 分 片 中 ， 则 其 将 以 图 19.10b 的 方式 布局 ， 否则， 其 哨兵 分 片 将 会 包含 一 个 指向 串联 
索引 的 指针 ， 而 后 者 将 包含 指向 每 一 个 子 数组 的 指针 。 如 果 串 联 索 引 是 够 小 ， 则 其 可 以 “内 
联 ” 到 哨兵 分 片 中 ， 如 图 19.10c 所 示 ， 和 否则 ， 串 联 索 引 必 须 单独 进行 分 配 ， 如 图 19.10d 
所 示 。 
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a) 由 两 个 分 片 组 成 的 对 象 ， 该 对 象 能 够 容纳 b) 由 单个 分 片 构成 的 数组 ， 最 多 可 以 容纳 4 个 
6 一 12 个 可 用 域 。 哨 兵 分 片 包含 三 个 头 部 字 : 可 用 域 。 哨 兵 分 片 包 含 4 个 头 部 字 : 指向 下 一 个 
指向 下 一 个 分 片 的 指针 、 垃 圾 回收 专用 头 部 分 片 的 指针 (为 空 )、 垃 圾 回收 专用 头 部 字 、 包 含 
字 、 包 含 类 型 信息 的 头 部 字 。 每 个 分 片 均 包含 类 型 信息 的 头 部 字 、 表 示 数 组 长 度 的 字 (n < 4)。 
指向 下 一 个 分 片 的 指针 数组 域 会 内 联 在 哨兵 分 片 中 ， 并 紧 挨 头 部 字 








c) 由 多 分 片 构成 的 数组 ， 最 多 能 够 使 用 3 个 分 片 来 容纳 可 用 域 ( 即 最 多 24 字 节 )。 哨 兵 分 
片 包含 5 个头 部 字 : 指向 内 联 串 联 索 引 的 指针 ( 非 空 )、 垃 圾 回收 专用 头 部 字 、 包 含 类 型 信 
息 的 头 部 字 、 伪 长 度 字 (为 0)、 表 示 真 正 长 度 的 字 (4<n< 24， 且 该 域 在 分 片 内 的 负 值 偏 
移 量 与 b 相同 2。 内 联 索 引 紧 挨 着 头 部 字 布 局 。 用 于 容纳 可 用 域 的 分 片 将 不 包含 任何 头 部 字 





d) 由 多 分 片 构成 的 数组 ， 用 于 容纳 可 用 域 的 分 片 数量 超过 4 个 〈 即 超过 24 字 节 )。 哨 兵 
分 片 包含 4 个 头 部 字 : 指向 独立 分 配 的 串联 索引 的 指针 ( 非 空 )、 垃 圾 回收 专用 头 部 字 、 包 
含 类 型 信息 的 头 部 字 、 伪 长 度 字 (为 0 )。 该 分 片 中 的 其 他 域 将 闲置 不 用 。 串 联 索 引 包含 两 
个 头 部 字 ， 一 个 用 于 记录 数组 的 真正 长 度 ， 另 一 个 用 于 记录 转发 指针 号。 这 两 个 域 在 串联 索 
引 分 片 内 部 的 偏 移 量 均 为 负 值 。 用 于 容纳 可 用 域 的 分 片 将 不 包含 任何 头 部 字 


图 19.10 Schism 回收 器 中 的 离散 分 配 策略 
Pizlo 等 [2010b] doi: 10.1145/1806596.180.6615. 
© 2010 Association for Computing Machinery, Inc. 经 许可 后 转载 


Schism 回收 器 的 创新 之 处 在 于 ， 独 立 分 配 的 数组 串联 索引 并 不 需要 从 对 象 / 数组 空间 进 
行 分 配 。 对 象 /数组 的 分 配 空间 本 质 上 是 由 固定 大 小 的 分 片 组 成 的 集合 ， 并 使 用 了 Immix 标 


O 对 于 情况 b， 数 组 的 引用 将 与 其 内 联 数组 的 首 元 素 地 址 相同 ， 对 于 情况 ec 和 d， 数 组 的 引用 将 与 内 联 串 联 索 
引 的 首 元 素 地 址 相同 ， 因 而 数组 长 度 域 的 偏 移 量 均 为 -1 个 字 。 一 一 译 者 注 。 
O 转发 指针 应 当 指向 哨兵 分 片 ， 而 数组 本 身 的 引用 也 为 串联 索引 首 元 素 地 址 。 





译 者 注 。 


370 #19 ¥ 


W- APKC a AE PEAS (参见 10.3 节 )。Immix 回收 器 中 大 小 为 128 字 节 的 行 即 为 
Schism 回收 器 中 的 子 对 象 或 者 子 数 组 。Schism 回收 器 相当 于 是 在 Immix 回收 器 中 引入 了 离 
散 分 配 以 及 即时 并 发 标记 技术 ， 同 时 需要 使 用 Dijkstra 式 增 量 更 新 插入 屏障 。 尽 管内 存 分 片 
永远 不 会 移动 ， 但 只 要 存在 足够 多 的 空闲 分 片 ， 任 意 大 小 的 数组 以 及 对 象 分 配 需求 都 可 以 得 
到 满足 。 因 此 ， 除 了 大 小 可 变 的 串联 索引 之 外 ， 内 存 碎片 化 将 不 再 是 一 个 问题 。 

为 了 限制 数组 串联 索引 所 产生 的 碎片 ，Schism 回收 器 会 在 一 个 独立 的 空间 中 分 配 它们 ， 
该 空间 将 使 用 副本 复制 回收 策略 进行 整理 。 由 于 数组 的 串联 索引 不 会 发 生 修改 (它们 仅 包 含 
指向 子 数组 分 片 的 指针 ， 而 子 数组 永远 不 会 移动 )， 因 此 在 回收 过 程 中 ， 回 收 器 无 需 担 心 赋 
值 器 对 串联 索引 的 更 新 。 事 实 上 ， 对 于 来 源 空间 中 的 串联 索引 主体 以 及 其 在 目标 空间 中 的 副 
本 ， 赋 值 器 可 以 使 用 其 中 的 任意 一 个 。 另 外 ， 每 个 串联 索引 最 多 只 会 被 一 个 数组 的 哨兵 分 片 
所 引用 。 在 复制 串联 索引 时 ， 回 收 器 可 以 采用 懒惰 策略 来 将 哨兵 分 片 中 指向 串联 索引 主体 的 
引用 更 新 到 其 副本 ， 且 这 一 操作 无 需 与 赋值 器 进行 同步 。 即 使 回收 器 已 经 完成 这 一 更 新 操 
作 ， 赋 值 器 仍 可 以 安全 地 使 用 来 源 空 间 中 的 串联 索引 主体 ， 同 时 也 可 以 在 下 一 次 访问 数组 时 
从 数组 哨兵 中 获取 最 新 副本 。 串 联 索 引 的 副本 创建 完毕 之 后 ,来 源 空间 中 的 旧 有 主体 无 需 任 
何 修 改 便 可 直接 丢弃 ， 因 为 此 时 数组 哨兵 分 片 是 目标 空间 中 新 串联 索引 的 唯一 引用 来 源 。 回 
收 器 可 以 使 用 非 协同 握手 机 制 来 确保 所 有 赋值 器 均 不 再 访问 来 源 空 间 中 的 串联 索引 。 

Schism 回收 器 存在 诸多 优势 。 首 先 ， 赋 值 器 线程 的 扒 访 问 操作 能 够 满足 无 等 待 要 求 ， 
且 访 问 时 间 存 在 严格 上 界 ( 即 花费 常数 时 间 )。 第 二 ， 内 存 碎片 问题 得 到 严格 控制 :Pizlo 等 
[2010b] 已 经 证 明 ， 如 果 给 定 应 用 程序 最 大 存活 数据 集合 中 对 象 以 及 数组 (包括 数组 长 度 ) 的 
数量 与 类 型 ， 则 程序 所 需 的 总 内 存量 会 严格 限制 在 1.31042 以 内 ， 其 中 4b 为 最 大 存活 数据 集 
合 的 大 小 。 第 三 ， 与 Siebert[2000] 所 提出 的 Jamaica 虚拟 机 不 同 ， 当 堆 空 间 足 够 时 ，Schism 
回收 器 可 以 将 构成 数组 的 各 个 子 数组 在 一 块 连续 的 空间 内 分 配 ， 此 时 数组 的 布局 方式 依然 如 
图 19.10d 所 示 ， 唯 一 不 同 之 处 在 于 各 子 数 组 内 存 分 片 将 在 空间 上 彼此 相 邻 。 在 这 种 情况 下 ， 
对 数组 元 素 的 访问 操作 便 可 免 去 对 串联 索引 的 依赖 。 这 一 属性 意味 着 与 其 他 实时 回收 器 相 
比 ，Schism 回收 器 将 拥有 更 高 的 吞吐 量 ， 而 且 能 够 在 连续 分 配 失败 后 降级 到 离散 分 配 来 确 
保 对 内 存 碎 片 情 况 的 容忍 度 ， 唯 一 的 代价 只 是 离散 化 数组 的 访问 速度 可 能 会 有 所 降低 。 与 单 
纯 的 并 发 标记 一 分 区 回收 器 (不 支持 离散 数组 ) 相 比 ，Schism 回收 器 花费 在 读 写 屏障 上 的 知 
吐 量 开销 只 是 前 者 的 77%。 

如 果 应 用 程序 的 开发 者 要 求 数 组 的 访问 开销 具有 可 预测 性 ，Schism 回收 器 可 以 配置 成 
仅 使 用 离散 分 配 策略 来 分 配 数组 ， 此 时 所 有 的 数组 访问 操作 都 必须 经 由 串联 数组 这 一 中 间 
层 。 这 一 策略 将 大 幅 降 低 系统 的 最 大 停顿 时 间 : 由 于 所 有 的 分 配 操作 都 是 以 单个 内 存 分 片 
作为 单元 ， 所 以 分 配 慢 速 路 径 的 执行 开销 只 可 能 是 对 一 个 4KB 的 页 进行 清 零 初始 化 ， 对 于 
40MHz 的 租 入 式 处 理 器 而 言 ， 完 成 这 一 操作 只 需要 0.4ms。 而 当 使 用 连续 分 配 策略 来 分 配 数 
组 时 ， 分 配器 必须 首先 尝试 寻找 一 块 连续 内 存 来 容纳 所 有 分 片 ， 在 相同 处 理 器 上 执行 该 操作 
可 能 会 花费 1ms 左右 的 时 间 。 


198 ”需要 考虑 的 问题 


实时 系统 要 求 对 垃圾 回收 过 程 进行 精细 化 控制 以 保证 较 短 的 停顿 时 间 以 及 可 预测 的 最 小 
赋值 器 使 用 率 。 在 本 章 中， 我们 几乎 综合 运用 了 前 面 章 节 中 的 所 有 技术 来 介绍 如 何 达 到 这 一 
目标 。 如 果 不 考虑 并 行 回收 以 及 并 发 回收 ， 则 实时 垃圾 回收 在 概念 上 较为 直接 ， 即 如 何 通过 
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调度 策略 来 满足 良好 的 响应 能 力 以 及 执行 性 能 。 此 时 我 们 的 注意 力 将 集中 在 垃圾 回收 算法 本 
身 ， 而 并 不 过 多 地 关注 如 何在 应 用 程序 中 保证 算法 的 可 调度 性 。 实 时 应 用 程序 的 开发 者 还 需 
要 对 程序 的 最 差 执 行 时 间 进 行 精确 分 析 ， 并 使 用 这 一 结果 进一步 进行 可 调度 性 分 析 ， 从 而 确 
保 程序 的 实时 限制 条 件 能 够 得 到 满足 [Wilhelm 等 ，2008]。 许 多 实时 系统 领域 的 文献 都 给 出 
了 如 何 对 基于 垃圾 回收 的 实时 应 用 程序 进行 最 差 时 间 分 析 以 及 可 调度 性 分 析 [Kim 等 ，2001; 
Robertz and Henriksson, 2003; Chang and Wellings, 2005, 2006a, b; Chang, 2007; Cho 等 ， 
2007, 2009; van Assche £, 2006; Kalibera “, 2009; Feizabadi and Back, 2005, 2007; 
Goh 等 ,2006; Kim 等 , 1999, 2000, 2001; Kim and Shin, 2004; Schoeberl, 2010; Zhao 等 ， 
1987]. 

我 们 将 最 小 赋值 器 使 用 率 作 为 衡量 垃圾 回收 整体 响应 时 间 的 主要 指标 ， 但 除 此 之 外 ， 其 
他 一 些 指标 也 十 分 重要 。Printezis[2006] 指出 ， 应 用 程序 特定 的 衡量 指标 通常 更 加 合适 。 例 
如 ， 对 于 一 个 要 求 在 固定 时 间 窗 内 得 到 响应 的 周期 性 实时 任务 ， 只 要 该 任务 的 实时 响应 得 到 
满足 ， 最 小 赋值 器 使 用 率 便 无 关 紧 要 。 另 外 ， 如 果 赋 值 器 线程 所 遭遇 的 垃圾 回收 相关 停顿 
仅仅 来 自 于 读 写 屏障 中 的 编译 器 内 联 慢 速 路 径 ， 或 者 线程 本 地 分 配 缓冲 区 耗 尽 时 的 慢 速 分 配 
路 径 ， 则 最 小 赋值 器 使 用 率 以 及 最 大 停顿 时 间 同 样 无 法 得 到 得 到 保障 。 对 于 某 些 回收 器 而 言 
(例如 Schism 回收 器 )， 这 将 是 导致 赋值 器 线程 产生 回收 相关 停顿 的 唯一 原因 (假定 回收 工作 
在 男 一 个 处 理 器 上 执行 )。 我 们 是 否 应 当 将 由 此 造成 的 停顿 归 知 于 垃圾 回收 器 ? 如 果 答 案 是 
肯定 的 ， 那么 系统 又 应 当 如 何 对 此 做 出 解释 ? Pizlo 等 [2010a] 甚至 不 惜 使 用 专用 硬件 来 针 
对 和 藤 入 式 处 理 器 进行 设备 级 别 的 慢 速 路 径 分 析 。 考 虑 到 实时 应 用 程序 的 开发 者 通常 不 具备 这 
一 条 件 ，Pizlo[2010b] 为 Schism 回收 器 提供 了 一 种 最 差 情 况 执行 模型 ， 该 情况 会 强制 回收 器 
激活 所 有 慢 速 路 径 ， 开 发 者 在 测试 过 程 中 可 以 据 此 对 程序 的 最 差 执行 时 间 进 行 合理 评估 。 
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术 语 表 


完整 的 术语 表 可 参见 : http://www.memorymanagement.org。 


ABA problem (ABA 问题 ) 无 法 通过 compareandswap 原子 操作 解决 的 一 类 问题 : 多 线程 并 发 情况 下 ， 
即使 某 一 线程 两 次 读 取 同 一 变量 得 到 的 值 相 同 ( 设 两 次 读 取 到 的 值 都 是 A)， 也 不 能 断定 该 变量 没有 
被 修改 过 。 因 为 在 该 线程 的 两 次 读 取 过 程 之 间 ， 可 能 存在 另 一 个 线程 先 将 该 变量 从 A 修改 到 B， 再 
将 其 从 B 改 回 A. 

accurate (精确 性 ) 参见 类 型 精确 性 (type-accurate) 。 

activation record (活动 记录 ) 保存 当前 计算 状态 以 及 函数 返回 地 址 的 内 存 结 构 ， 有 时 也 称 为 帧 
(frame)。 

age-based collection (基于 年 龄 的 回收 ) 根据 对 象 寿命 将 堆 划 分 为 多 个 空间 (space) 的 回收 策略 。 

aging space (衰老 空间 ) 分 代 内 部 的 子 空间 (通常 位 于 最 年 轻 分 代 内 部 )。 对 象 在 得 到 提升 (prompt) 
之 前 必须 在 该 空间 活 过 数 轮回 收 周期 。 

alignment (对 齐 ) 硬件 或 虚拟 机 限制 ， 它 可 能 要 求 对 象 及 其 内 部 的 域 只 能 放置 在 特定 地 址 界限 中 。 

allocation (分 配 ) 分 配 空闲 内 存单 元 (free cell) 的 动作 。 

allocator (分 配器 ) 内 存 管理 器 中 负责 创建 对 象 (但 不 负责 将 其 初始 化 ) 的 组 件 。 

ambiguous pointer (模糊 指针 ) 可 能 指向 某 一 对 象 ， 也 可 能 未 指向 任何 对 象 的 指针 变量 ， 参 见 保守 
式 回收 (conservative collection). 

ambiguous root (模糊 根 ) 程序 根 (root) 中 的 模糊 指针 。 

arraylet ( 子 数组 ) 承载 数组 元 素 某 个 子 集 的 固定 大 小 的 内 存 块 (chuck)。 

barrier (屏障 ) 影响 对 象 访问 过 程 的 行为 (通常 是 由 编译 器 引入 的 代码 序列 )。 

belt ( 带 ) 带 式 回 收 器 的 回收 增 量 (increment) 集合 。 

best-fit allocation (最 佳 适 应 分 配 ) 一 种 空闲 链表 分 配 ( free-list allocation) 策略 : 将 对 象 放 置 在 堆 中 
能 够 满足 分 配 要 求 且 空间 最 小 的 内 存单 元 (cell) 中 。 

big bag of pages allocation, BiBoP ( RRM) 一 种 分 区 适应 分 配 (segregated-fits allocation) 策略 : 
将 具有 相同 属性 (如 类 型 ) 的 对 象 分 配 在 同一 个 内 存 块 (block) 中 ， 从 而 可 以 将 类 型 信息 与 内 存 块 
而 非 单个 对 象 相 关联 。 

bitmap (位 图 ) 位 数组 (通常 是 字 节 数组 )， 每 一 位 关联 一 个 对 象 或 者 一 个 内 存 颗 粒 (granule ) 。 

bitmapped-fits allocation (位 图 适应 分 配 ) 使 用 位 图 来 标记 堆 中 的 空闲 内 存 颗 粒 的 顺序 适应 分 配 
(sequential-fits allocation) 策略 。 

black (黑色 ) 如 果 对 象 是 黑色 的 ， 意 味 着 回收 器 已 经 完成 对 该 对 象 的 处 理 ， 并 且 认 为 它 是 存活 的 ， 也 
可 参见 三 色 抽 象 (tricolour abstraction) 。 

black-listing ( 黑 名 单 ) 可 能 成 为 伪 指 针 (false pointer) 目标 的 地 址 区 间 ， 保 守 式 回收 可 以 据 此 减少 内 
存 泄 漏 (leak) 。 

block (内 存 块 ) 以 特定 大 小 对 齐 的 大 块 内 存 ， 其 大 小 通常 是 2 的 整数 次 宕 。 

boundary tag (边界 标签 ) 内 存 块 边界 上 协助 进行 内 存 块 合并 (coalescing) 的 数据 结构 。 

bounded mutator utilisation, BMU (界限 赋值 器 使 用 率 ) 在 给 定时 间 窗 或 者 更 大 时 间 窗 内 的 最 小 赋 
值 器 使 用 率 (minimum mutator utilization, MMU), 5 MMU 不 同 ，BMU 曲线 是 单调 递增 的 。 

breadth-first traversal ( 广度 优先 遍历 ) 一 种 对 象 图 遍历 (traversal) 策略 : 在 保证 每 个 节点 只 访问 
一 次 的 前 提 下 ， 对 于 任意 节点 先 辐射 状 地 访问 其 所 有 子 节 点 ， 然 后 再 对 子 节点 的 子 节点 进行 递归 
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访问 。 

bucket ( 桶 ) 阶 (step) 的 子 空间 ， 目 的 在 于 将 对 象 按 照 年 龄 进行 隔离 。 

bucket brigade ( 桶 组 ) 使 用 桶 实现 分 代 回 收 (generational collection) 的 回收 策略 。 

buddy system (伙伴 系统 ) 一 种 分 区 适应 分 配 策略 : 以 2 的 整数 次 宕 为 单位 来 分 配 内 存 块 ， 同 时 支持 
简单 快速 的 空闲 块 分 裂 (splitting) 以 及 相 邻 空闲 块 合并 (coalescing). 

buffered reference counting (缓冲 引用 计数 ) 一 种 引用 计数 (reference counting) 形式 : 赋值 器 先 保 
存 所 有 引用 计数 操作 ， 然 后 再 将 这 些 操作 记录 发 送 给 回收 器 去 执行 。 

bump pointer allocation ( 阶 跃 指 针 分 配 ) 参见 顺序 分 配 (sequential allocation) 。 

cache (高 速 缓存 ) 一 种 速度 较 快 的 存储 器 ， 其 中 保存 了 内 存 中 被 频繁 使 用 的 数据 的 副本 ， 目 的 是 为 
了 提升 处 理 器 的 访问 速度 。 

cache block (高 速 缓存 块 ) 参见 高 速 缓存 行 (cache line). 

cache coherence (高 速 缓存 一 致 性 ) 判定 两 个 或 多 个 高 速 缓存 中 针对 内 存 中 同一 数据 的 副本 是 否 一 
致 的 标准 。 

cache hit ( 高 速 缓存 命中 ) 高 速 缓存 中 已 经 存在 程序 所 需 数据 的 副本 ， 从 而 无 需 再 对 内 存 进行 访问 。 

cache line (高 速 缓存 行 ) 高 速 缓 存 和 内 存 之 间 传 递 数 据 的 内 存单 元 。 

cache miss (高 速 缓存 不 命中 ) 高 速 缓存 中 尚未 包含 程序 所 需 数据 的 副本 ， 从 而 必须 对 内 存 进行 访问 。 

call stack (WAR) 线程 执行 过 程 中 存储 函数 栈 帧 的 动态 数据 结构 。 

car (4FA) 火车 (train) 回收 器 的 回收 单元 。 

car (Lisp 语言 ) Lisp 语言 中 获取 cons 单元 (cons cell) 第 一 个 元 素 的 操作 符 。 

card (F) 堆 中 大 小 为 2 的 整数 次 宕 的 已 对 齐 区 域 ， 其 空间 通常 较 小 。 

card marking ( 卡 标记 ) 赋值 器 记录 回收 相关 指针 的 策略 之 一 ， 其 通过 写 屏 障 来 ( write barrier) 更 新 
卡 表 (card table). 

causal consistency (因果 一 致 性 ) 一 种 一 致 性 模型 ( consistency model)， 其 要 求 如 下 : 如 果 写 操作 
的 参数 需要 依赖 某 一 读 操 作 ， 则 该 读 操 作 必 须 先 于 该 写 操作 发 生 ; 相应 地 ， 如 果 某 一 读 操作 需要 读 
取 某 一 写 操作 所 写 入 的 值 ， 则 该 写 操作 必须 先 于 该 读 操 作 发 生 。 

cdr Lisp 语言 中 获取 cons 单元 第 二 个 元 素 的 操作 符 。 

cell ( 内 存单 元 ) 由 一 组 连续 内 存 颗 粒 组 成 的 内 存 空 间 ， 可 以 被 分 配 或 者 释放 ， 甚 至 浪费 或 者 不 用 。 

Cheney scanning ( Cheney 扫描 ) 在 复制 式 回收 (copying collection) 中 追踪 (tracing) 存活 对 象 的 
一 种 技术 ， 其 追踪 过 程 无 需 依 赖 栈 。 

chip multiprocessor, CMP (片上 多 处 理 器 ) 在 单个 世 片 中 集成 了 多 个 处 理 器 的 多 处 理 器 (multiprocessor), 
参见 多 核 (multicore) 和 众 核 处 理 器 (many-core processor)。 

chunk (内 存 块 ) 由 一 组 连续 内 存 颗 粒 组 成 的 较 大 内 存 空 间 。 

circular first-fit allocation 〈 环 状 首次 适应 分 配 ) 参见 循环 首次 适应 分 配 (next-fit allocation) 。 

coalesced reference counting (合并 引用 计数 ) 一 种 可 以 避免 元 余 引 用 计数 操作 的 缓冲 引用 计数 
(buffered reference counting) 策略 。 

coalescing (合并 ) 将 相 邻 空闲 内 存单 元 组 成 单个 空闲 内 存单 元 的 操作 ， 也 可 参见 分 区 适应 分 配 。 

coherence protocol (一 致 性 协议 ) 满足 特定 内 存 一 致 性 模型 要 求 的 高 速 缓存 管理 协议 。 

collection (回收 ) 回收 器 的 一 次 运行 实例 ， 其 运行 过 程 通常 会 将 待 回 收 空间 中 的 所 有 死亡 对 象 回收 。 

collection cycle (回收 周期 ) 回收 器 的 一 次 完整 执行 过 程 。 

collector (回收 器 ) 运行 时 系统 中 负责 垃圾 回收 (garbage collection) 的 组 件 。 

compacting (整理 ) 一 种 减少 外 部 碎片 (external fragmentation) 的 策略 : 迁移 所 有 得 到 标记 的 (存活 ) 
对 象 ， 并 且 更 新 所 有 存活 对 象 中 指向 已 迁移 对 象 的 引用 。 

compaction (整理 ) 参见 整理 (compacting). 

compaction order (整理 顺序 ) 整理 式 回 收 器 重 排列 对 象 时 所 遵从 的 顺序 : 可 以 是 任意 顺序 (忽略 对 
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象 之 前 的 排列 顺序 或 者 对 象 之 间 的 关系 )、 线 性 顺序 (尝试 将 存在 引用 关系 的 对 象 布置 在 一 起 )、 滑 
动 顺 序 (保留 对 象 原 有 的 排列 顺序 )。 

completeness (完整 性 ) 判定 回收 器 是 否 能 保证 所 有 垃圾 最 终 都 能 得 到 回收 的 指标 ; 例如 ， 引 用 计数 
算法 是 不 完整 的 ， 因 为 它 无 法 回收 包含 环 状 引用 的 死亡 对 象 。 

concurrent collection (并 发 回收 ) 与 赋值 器 线程 并 发 执行 的 垃圾 回收 过 程 。 

condemned space (定罪 空间 ) 待 回 收 的 内 存 空间 或 者 子 空间 。 

connectivity-based (garbage) collection, CBGC (基于 相关 性 的 (垃圾 ) 回收 ) 将 堆 依照 对 象 相关 
性 划分 为 多 个 空间 的 回收 技术 。 

cons cell(cons 单元 ) Lisp 语言 中 由 两 个 元 素 组 成 的 双 字 单 元 ， 它 是 将 一 组 元 素 链接 成 表 的 基本 单元 。 

conservative collection ( 保守 式 回 收 ) 在 没有 编译 器 或 者 运行 时 系统 协助 的 情况 下 的 回收 技术 ， 回 收 
器 必须 把 栈 上 或 者 静态 数据 区 中 所 有 “看 起 来 像 指针 ”的 数值 当 作 存活 对 象 的 根 。 

consistency model ( 一致 性 模型 ) 一 个 内 存 相 关 规范 ， 它 规定 了 内 存 系统 应 当 如 何 展现 给 开发 者 ， 
其 对 读 操作 能 从 共享 内 存 中 读 取 到 的 值 做 出 了 限制 。 

copy reserve (复制 保留 区 ) 复制 式 回收 中 预 留 的 内 存 空间 。 

copy collection (复制 式 回收 ) 将 存活 对 象 从 一 个 半 区 (semispace) 复制 到 男 一 个 半 区 的 回收 策略 (该 
过 程 完 成 后 ， 前 一 个 半 区 可 以 得 到 整体 回收 )。 

creation space (诞生 空间 ) 参见 新 生 区 (nursery). 

crossing map (跨越 映射 ) 描述 对 象 如 何 跨 区 域 (通常 是 卡 ) 的 映射 表 。 

dangling pointer (悬挂 指针 ) 指向 已 经 被 内 存 管理 器 回收 的 对 象 的 指针 。 

dead (死亡 ) 如 果 赋 值 器 在 后 续 执 行 过 程 中 不 会 再 访问 某 个 对 象 ， 则 可 以 说 该 对 象 已 经 死亡 。 

deallocation (FEM) 回收 已 分 配 内 存单 元 的 操作 。 

deferred reference counting (延迟 引用 计数 ) 将 某 些 引用 计数 操作 (通常 是 针对 局 部 变量 ) 延迟 的 引 
用 计数 策略 。 

deletion barrier (删除 屏障 ) 探测 赋值 器 删除 引用 操作 的 写 屏 障 ， 也 可 参见 起 始 快照 (snapshot-at-the- 
beginning). 

dependent load (依赖 加 载 ) 读 操 作 的 目标 地 址 需要 依赖 该 操作 之 前 的 另 一 个 读 操 作 的 返回 结果 。 

depth-first traversal (深度 优先 遍历 ) 一 种 图 的 遍历 方法 : 在 保证 每 个 节点 只 访问 一 次 的 前 提 下 ， 对 
从 任意 节点 出 发 的 所 有 分 支 路 径 深入 访问 到 不 能 再 深 为 止 。 

derived pointer (派生 指针 ) 在 对 象 引 用 上 增加 一 个 偏 移 量 得 到 的 指针 。 

direct collection (直接 回收 ) 仅 通 过 对 象 自身 即 可 判定 其 是 否 存活 的 回收 算法 。 

double mapping (二 次 映射 ) 将 同一 个 物理 内 存 页 (page) 以 不 同 的 保护 策略 映射 到 不 同 虚拟 地 址 的 
技术 。 

double-ended queue ( 双 端 队列 ) 允许 元 素 从 前 端 ( 头 部 ) 添加 、 后 端 (尾部 ) 移 除 的 数据 结构 。 

epoch (时 段 ) 引用 计数 回收 器 的 一 个 执行 时 间 区 间 ， 回 收 器 在 该 时 间 区 间 内 可 以 避免 同步 操作 ,或 
者 以 非 同步 操作 替代 同步 操作 。 

escape analysis (逃逸 分 析 ) 判定 对 象 是 否 会 脱离 其 诞生 的 方法 或 者 线程 的 范围 ， 从 而 成 为 共享 对 象 
的 分 析 (通常 是 静态 的 )。 

evacuating (迁移 ) 将 对 象 从 定罪 空间 移动 到 (目标 空间 中 ) 新 位 置 的 操作 ， 也 可 参见 复制 式 回 收 或 
者 标记 一 整理 回收 (mark-compact collection) 。 

explicit deallocation ( 显 式 释 放 ) 由 开发 者 手动 执行 的 内 存 释放 操作 ， 而 非 由 回收 器 自动 控制 。 

external fragmentation (外 部 碎片 ) 内 存单 元 之 外 被 浪费 的 、 无 法 用 于 分 配 的 空间 ， 也 可 参见 内 部 碎 
Fr (internal fragmentation) o 

false pointer ( 伪 指针 ) 保守 地 假定 某 一 值 是 指向 某 一 对 象 的 指针 ， 但 其 并 未 真正 指向 任何 对 象 ， 也 
可 参见 保守 式 回 收 。 
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false sharing ( 伪 共享 ) 多 个 处 理 器 同时 修改 落 人 同一 个 高 速 缓存 行 的 数据 ， 导 致 高 速 缓存 一 致 性 交 
互 增多 的 现象 。 

fast-fits allocation (快速 适应 分 配 ) 一 种 顺序 适应 分 配 策 略 ， 该 策略 通过 索引 查找 堆 中 第 一 个 或 下 一 
个 满足 分 配 要 求 的 内 存单 元 。 

Fibonacci buddy system ( 斐 波 那 契 伙伴 系统 ) 空间 大 小 分 级 (size class) 呈 斐 波 那 契 序列 分 布 的 伙 
伴 系统 。 

field ( 域 ) 对 象 中 保存 引用 或 者 纯 值 (scalar) 的 部 分 。 

filler object (填充 对 象 ) 为 保证 堆 可 解析 性 (heap parsability) 而 在 真正 对 象 之 间 分 配 的 对 象 。 

finalisation (终结 ) 当 对 象 不 可 达 (unreachable) 时 回收 器 所 执行 的 动作 。 

finaliser (终结 方法 ) 当 回 收 器 判定 某 个 对 象 不 可 达 时 所 调用 的 方法 。 

first-fit allocation (首次 适应 分 配 ) 一 种 空闲 链表 分 配 策略 ， 该 策略 将 对 象 放置 在 堆 中 第 一 个 满足 分 
配 要 求 的 内 存单 元 中 。 

first-in, first-out, FIFO (先进 先 出 ) 参见 队列 (queue). 

flip ( 翻转) 复制 式 回收 中 ， 回 收 器 在 回收 周期 开始 时 将 来 源 空间 ( fromspace) 与 目标 空间 ( tospace ) 
置换 的 操作 。 

floating garbage (浮动 垃圾 ) 未 能 在 上 一 个 回收 周期 中 得 到 回收 的 死亡 对 象 。 

forwarding address (转发 地 址 ) 对 象 得 到 迁移 之 后 的 新 地 址 ， 通 常 记录 在 来 源 空 间 中 对 象 的 头 部 
(header). 

fragmentation (碎片 化 ) 堆 中 对 象 之 间 (或 者 内 部 ) 存在 大 量 无 法 用 于 分 配 的 小 块 内 存 ， 从 而 导致 堆 
使 用 率 降低 的 现象 ， 也 可 参见 内 部 碎片 和 外 部 碎片 。 

frame ( 框 ) 大 小 和 对 齐 基 址 均 为 2 的 整数 次 宕 的 内 存 块 。 不 连续 内 存 空间 中 通常 包含 数 个 框 。 也 可 
以 参考 活动 记录 (activation record). 

free (空闲 ) 内 存单 元 可 以 直接 用 于 分 配 的 状态 。 

free pointer (空闲 指针 ) 指向 内 存 块 中 空闲 内 存 颗 粒 的 指针 ， 也 见 顺 序 分 配 。 

free-list allocation (空闲 链表 分 配 ) 使 用 某 种 数据 结构 来 记录 空闲 内 存单 元 的 地 址 和 大 小 的 顺序 适应 
分 配 策略 。 

fromspace (来 源 空 间 ) 复制 式 回收 中 ,一 次 回收 过 程 开 始 之 前 对 象 所 在 的 区 域 ; 回收 器 将 把 其 中 的 
存活 对 象 复 制 到 目标 空间 。 

fromspace invariant (来 源 空间 不 变 式 ) 即 “ 赋 值 器 仅 持 有 来 源 空 间 中 的 引用 ”这 一 不 变 式 。 

garbage (垃圾 ) 已 经 死亡 但 空间 尚未 得 到 回收 的 对 象 。 

garbage collection, GC (垃圾 回收 ) 当 对 象 不 再 被 程序 使 用 时 自动 将 其 占用 的 空间 回收 的 内 存 管理 
策略 。 

garbage collector (垃圾 回收 器 ) 参见 回收 器 。 

GC-check point ( 回收 检查 点 ) 在 此 处 ， 赋 值 器 ( mutator) 不 会 主动 发 起 回收 ， 但 会 在 回收 发 生 时 将 
自身 安全 挂 起 的 代码 位 置 。 

GC-point (回收 点 ) 赋值 器 可 能 触发 垃圾 回收 的 代码 位 置 (例如 对 象 分 配 相 关 代 码 )。 

GC-safe point (安全 回收 点 ) 参见 回收 点 。 

generation (分 代 ) 集中 了 具有 某 一 寿命 特征 的 对 象 的 内 存 空间 。 

generational collection (分 代 回 收 ) 将 对 象 依 照 寿命 划分 为 多 个 分 代 且 优先 回收 最 年 轻 分 代 的 回收 
机 制 。 

generational hypothesis (分 代 假说 ) 即 “对 象 的 寿命 与 其 年 龄 相关 ”的 假说 ; 也 可 参见 弱 分 代 假 说 
(weak generational hypothesis) 和 强 分 代 假 说 (strong generational hypothesis ) 。 

gibibyte，GiB (FË) 2” 字 节 的 标准 计量 单位 。 

gigabyte, GB (ASW) 2” 字 节 的 常用 计量 单位 。 
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granule ( 内存 颗粒 ) 最 小 的 内 存 分 配 单元 ， 通 常 为 一 个 字 或 者 一 个 双 字 。 

grey (RE) 如 果 回 收 器 尚未 完成 对 某 一 对 象 的 处 理 ， 但 可 以 确定 它 是 存活 的 ， 则 称 该 对 象 是 灰色 的 ; 
也 可 参见 三 色 抽象 。 

guard page (哨兵 页 ) 使 用 禁止 访问 保护 策略 进行 映射 的 页 。 

handle (句柄 ) 由 运行 时 系统 所 管理 的 、 持 有 对 象 引用 的 数据 结构 。 回 收 器 通常 不 会 移动 句柄 ， 但 会 
移动 其 所 引用 的 对 象 。 

happens-before ( 先 于 关系 ) 对 一 组 操作 在 内 存 中 的 发 生 顺 序 的 要 求 。 

hard real-time system ( 硬 实时 系统 ) 对 响应 时 限 有 严格 要 求 的 实时 系统 (real-time system); 响应 超 
时 将 会 导致 严重 的 系统 失败 。 

header ( 头 部 ) 对 象 内 部 用 于 保存 运行 时 系统 所 需 元 数据 的 区 域 。 

heap ( 堆 ) 人 允许 以 任意 顺序 分 配对 象 或 者 释放 对 象 的 数据 结构 ， 在 堆 中 分 配 的 对 象 的 生命 期 不 会 受到 
创建 该 对 象 的 方法 的 影响 。 

heap allocation ( 扒 分 配 ) 从 堆 中 分 配对 象 的 操作 。 

heap parsability ( 堆 可 解析 性 ) 顺 次 逐个 遍历 堆 中 对 象 的 能 力 。 

heaplet (FIE) 堆 的 子 集 ， 其 所 包含 的 对 象 只 允许 一 个 线程 访问 。 

hyperthreading ( 超 线程 ) 可 参见 同时 多 线程 (simultaneous multithreading) 。 

increment ( 增 量 ) 带 式 回收 器 的 回收 单元 ， 注 意 不 要 与 增 量 回收 (incremental collection) 混淆 。 

incremental collection ( 增 量 回收 ) 赋值 器 也 需 承 担 一 小 部 分 回收 任务 的 回收 策略 ; 也 可 参见 并 发 回 
收 (concurrent collection) 。 

incremental update ( 增 量 更 新 ) 一 种 解决 对 象 丢失 问题 (lost object problem) 的 策略 ， 即 赋值 器 将 
自身 引发 的 增 量 更 新 通知 给 回收 器 。 

indirect collection (间接 回收 ) 一 种 垃圾 回收 策略 ， 即 先 确 定 所 有 的 存活 对 象 ， 进 而 反 推出 所 有 的 其 
他 对 象 都 是 垃圾 。 

insertion barrier (插入 屏障 ) 检测 赋值 器 插入 引用 操作 的 写 屏 障 ; 也 可 参见 增 量 更 新 。 

interior pointer ( 内 部 指针 ) 指向 对 象 内 部 域 的 派生 指针 。 

internal fragmentation ( 内 部 碎片 ) 内 存单 元 内 部 浪费 的 空间 ， 例 如 因 向 上 圆 整 到 指定 大 小 而 产生 的 
空间 浪费 ; 也 可 参见 外 部 碎片 。 

JVM (Java 虚拟 机 ) 执行 Java 程序 的 虚拟 机 (virtual machine ) 。 

kibibyte, KiB ( 千 字 节 ) 2° 字 节 的 标准 计量 单位 。 

kilobyte, KB ( 千 字 节 ) 2" 字 节 的 常用 计量 单位 。 

large object space, LOS (大 对 象 空间 ) 为 大 小 超过 一 定 阔 值 的 对 象 专门 保留 的 内 存 空间 ， 该 空间 通 
常 由 非 移动 式 回收 器 管理 。 

last-in, first-out, LIFO (后 进 先 出 ) 参见 栈 (stack). 

lazy reference counting (懒惰 引用 计数 ) 一 种 引用 计数 策略 ， 即 只 有 当 分 配器 需要 内 存 时 才 将 引用 
计数 为 零 的 对 象 的 释放 ， 同 时 处 理 其 子 节点 。 

lazy sweeping ( 懒 情 清 扫 ) 仅 在 必要 时 (通常 是 指 需要 分 配 新 空间 时 ) 才 执 行 清扫 。 

leak (泄漏 ) 参见 内 存 泄漏 (memory leak), 

limit pointer (界限 指针 ) 指向 内 存 块 未 端的 指针 ; 也 可 参见 顺序 分 配 。 

linear allocation (线性 分 配 ) 参见 顺序 分 配 。 

linearisable (线性 化 ) 一 组 以 某 种 “看 起 来 ”不 重 琶 的 方式 串 行 执行 的 并 发 操作 的 执行 记录 ， 如 果 两 
个 操作 在 记录 中 不 重要 ， 那 么 它们 的 发 生 顺 序 必 须 “ 看 起 来 ”与 它们 的 调用 顺序 保持 一 致 。 

linearisation point (线性 化 点 ) 线性 化 记录 中 的 操作 发 生 瞬 间 的 时 间 点 。 

live (存活 ) 如 果 赋 值 器 在 未 来 的 执行 过 程 中 会 访问 某 个 对 象 ， 则 称 该 对 象 是 存活 的 。 

livelock ( 活 锁 ) 在 两 个 (或 多 个 ) RFE (thread) 竞争 场景 下 ， 某 个 ( 某 些 ) 线程 永远 无 法 向 前 执行 的 


大 BR 377 


情况 。 

liveness (of collector) ( ( 回收 器 ) 存活 性 ) 判定 (并 发 ) 回收 器 是 否 最 终 能 够 完成 回收 过 程 的 标准 。 

liveness (of object) ( (对 象 ) 存活 性 ) 判定 某 一 对 象 在 程序 的 未 来 执行 过 程 中 是 否 可 能 被 赋值 器 访问 
的 标准 。 

local allocation buffer, LAB (本 地 分 配 缓 冲 ) 仅 供 单个 线程 分 配 空间 的 内 存 块 。 

locality (局 部 性 ) 程序 对 域 或 者 对 象 的 访问 在 时 间或 者 空间 上 的 集中 程度 ; 也 可 参见 空间 局 部 性 
(spatial locality) 和 时 间 局 部 性 (temporal locality). 

lock ($) 一 种 控制 多 个 并 发 线程 对 同一 资源 访问 的 同步 机 制 ; 任意 时 间 点 通常 只 有 一 个 线程 可 以 持 
有 锁 ， 其 他 线程 则 必须 等 待 。 

lock-free (无 锁 ) 一 种 前 进 保障 级 别 : 尽管 部 分 线程 可 能 执行 失败 ， 但 整个 系统 的 执行 不 会 被 阻塞 ; 
无 锁 操 作 必 然 是 无 障碍 (obstruction-free) 的 ; 也 可 参见 非 阻塞 (non-blocking ) 。 

lost object problem (REAM) 并 发 回收 算法 中 可 能 遇 到 的 一 种 问题 ， 即 赋值 器 和 回收 器 的 交 
替 执行 可 能 会 导致 回收 器 误 认 为 某 个 对 象 不 可 达 ， 进 而 错误 地 将 其 回收 。 

major collection ( 主 回收 ) 分 代 回 收 中 对 年 轻 代 (young generation) 和 年 老 代 (old generation) 都 进 
行 处 理 的 回收 。 

malloc C 语 言 标准 库 中 从 堆 中 分 配 内 存 的 函数 。 

managed code (托管 代码 ) 在 托管 运行 时 (managed run-time) 上 运行 的 程序 代码 。 

managed run-time (托管 运行 时 ) 提供 诸如 自动 内 存 管理 等 功能 的 运行 时 系统 。 

many-core processor ( 众 核 处 理 器 ) 在 单个 芯片 上 集成 大 量 处 理 器 的 多 处 理 器 。 

mark bit (标记 位 ) 记录 对 象 是 否 存活 的 位 ， 可 以 将 其 保存 在 对 象 头 部 或 者 额外 的 标记 表 中 。 

mark-compact collection (标记 一 整理 式 回收 ) 一 种 追踪 式 回 收 (tracing collection) 策略 ， 通 常 分 为 
三 个 或 者 更 多 阶段 ， 回 收 器 首先 标记 所 有 存活 对 象 ， 然 后 通过 整理 来 减轻 碎片 化 。 

mark-sweep collection (标记 一 清扫 式 回 收 ) 一 种 追踪 式 回 收 策略 ， 通 常 分 为 两 个 阶段 ， 即 首先 标记 
所 有 的 存活 对 象 ， 然 后 在 堆 中 进行 清扫 以 回收 未 被 标记 的 (死亡 ) 对 象 。 

mark/cons ratio (标记 /构造 率 ) 评价 垃圾 回收 性 能 的 一 个 标准 ， 即 回收 器 的 工作 量 (“ 标 记 ”) 与 赋 
值 器 的 分 配 量 (“构造 ”) 之 间 的 比值 ; 也 可 参见 cons 单元 。 

marking (标记 ) 记录 对 象 的 状态 为 存活 ， 一般 通 过 设置 一 个 标记 位 来 实现 。 

mature object space, MOS (成 熟 对 象 空间 ) ABCA (成熟) 对 象 保留 的 内 存 空 间 ， 回 收 器 通常 不 
再 关注 该 空间 中 的 对 象 的 年 龄 。 

mebibyte, MiB ( 兆 字 节 ) 2” 字 节 的 标准 计量 单位 ; 也 可 参见 兆 字 节 (megabyte). 

megabyte, MB ( 兆 字 节 ) 2 字 节 的 常用 计量 单位 ; 也 可 参见 兆 字 节 (megibyte ) 。 

memory fence (内 存 屏障 ) 阻止 处 理 器 对 某 些 内 存 访问 操作 进行 重 排列 的 一 类 同步 指令 。 

memory leak ( 内 存 泄漏 ) 程序 未 能 释放 不 再 使 用 的 内 存 空间 ， 从 而 导致 内 存 浪费 的 现象 。 

memory order ( 内 存 顺序 ) 对 高 速 缓存 或 者 内 存 中 多 个 地 址 的 读 写 操 作 顺 序 ， 以 及 这 些 操 作 被 其 他 处 
理 器 察觉 的 顺序 ; 也 可 参见 程序 顺序 (program order), 

minimum mutator utilization，MMU (最 小 赋值 器 使 用 率 ) 给 定时 间 窗 内 赋值 器 使 用 率 的 最 小 值 。 

minor collection (次 级 回收 ) 分 代 回 收 中 只 针对 年 轻 代 或 者 新 生 区 的 回收 。 

mmap 创建 虚拟 地 址 映射 的 UNIX 系统 调用 。 

mostly-concurrent collection ( 主体 并 发 回收 ) 一 种 只 需 短 暂停 止 所 有 赋值 器 线程 的 并 发 回收 策略 。 

mostly-copying collection (主体 复制 式 回收 ) 一 种 复制 式 回 收 策略 : 除了 少 部 分 被 钉 住 (pinning) 的 
对 象 之 外 ， 大 部 分 对 象 都 通过 复制 的 方式 进行 回收 。 

moving collection (移动 式 回收 ) 会 移动 对 象 的 回收 策略 。 

multi-tasking virtual machine, MVM (多 任务 虚拟 机 ) 可 以 在 一 次 执行 过 程 中 运行 多 个 应 用 程序 CE 
务 ) 的 虚拟 机 。 
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multicore (44%) 参见 片上 多 处 理 器 。 

multiprocessor ( 多 处 理 器 ) 拥有 超过 一 个 处 理 融 的 计算 机 。 

multiprogramming (多 程序 ) 在 单个 处 理 器 上 执行 多 个 进程 (processe) 或 者 线程 (thread)。 

multitasking (多 任务 ) 在 单个 处 理 器 上 执行 多 个 任务 (tasks). 

multithreading (多 线程 ) 在 一 个 或 多 个 处 理 器 上 执行 多 个 线程 。 

mutator (赋值 器 ) 即 用 户 程 序 。 之 所 以 这 样 称呼 ， 是 因为 从 回收 器 角度 来 看 ， 用 户 程序 只 是 简单 地 
改变 对 象 图 。 

mutator utilisation ( 赋值 器 使 用 率 ) 赋值 器 在 整个 应 用 程序 中 所 占用 的 CPU 时 间 比 例 ， 其 余 CPU 时 
间 将 被 回收 器 占用 。 

nepotism (庇护 ) 位 于 非 定罪 空间 中 的 死亡 对 象 导致 定罪 空间 中 的 死亡 对 象 无 法 得 到 回收 的 现象 。 

newspace (新 生 空间 ) 用 于 分 配 新 对 象 的 内 存 空 间 。 

next-fit allocation (循环 首次 适应 分 配 ) 一 种 空闲 链表 分 配 策略 : 将 对 象 分 配 在 堆 中 下 一 个 满足 分 配 
要 求 的 内 存单 元 中 。 

node (节点 ) 参见 对 象 。 

non-blocking ( 非 阻塞 ) 能 够 确保 多 个 线程 在 竞争 同一 个 共享 资源 时 ， 任 意 线 程 都 不 会 被 永久 性 延迟 
的 多 线程 同步 模型 ; 也 可 参见 无 障碍 (obstruction-free)、 无 锁 (lock-free)、 无 等 待 (wait-free)。 

non-uniform memory access ( 非 一 致 内 存 访问 ) 一 种 多 处 理 器 架构 : 每 个 处 理 器 都 有 相关 联 的 共享 
内 存单 元 ， 且 处 理 器 在 访问 自身 关联 的 共享 内 存单 元 时 速度 较 快 。 

not-marked-through, NMT (尚未 标记 过 ) 在 Pauseless 回收 器 中 ， 某 一 引用 尚未 被 回收 器 追踪 到 ， 
因此 不 能 确定 其 所 指向 的 对 象 是 否 已 经 得 到 标记 。 

null ( 空 ) 未 引用 任何 对 象 的 特殊 引用 。 

nursery (新 生 区 ) 分 代 式 回收 器 中 创建 新 对 象 时 所 使 用 的 内 存 空间 。 

object (对 象 ) 应 用 程序 所 使 用 的 已 分 配 内 存单 元 。 

object inlining (对 象 内 联 ) 参见 纯 值 替换 (scalar replacement). 

oblet (FHR) 承载 对 象 某 些 域 的 固定 大 小 的 内 存 块 。 

obstruction-free (无 障碍 ) 一 种 前 进 保障 级 别 : 在 任意 时 间 点 ， 只 要 线程 拥有 足够 的 独占 式 执行 时 间 ， 
其 便 能 够 在 有 限 步骤 内 完成 操作 ; 也 可 参见 非 阻 塞 。 

old generation (年 老 代 ) 对 象 得 到 提升 之 后 所 处 的 空间 ， 分 配器 也 可 将 对 象 预 分 配 (tenure) 到 该 
空间 。 

on-stack replacement ( 栈 上 替换 ) 在 某 一 函数 存在 调用 实例 的 情况 下 替换 其 代码 的 技术 。 

on-the-fly collection (即时 回收 ) 一 次 最 多 只 挂 起 一 个 赋值 器 线程 的 并 发 回收 技术 。 

padding (填充 ) 分 配器 为 满足 对 齐 要 求 而 插入 的 额外 空间 。 

page (页 ) 一 个 虚拟 内 存 块 。 

parallel collection (并 行 回收 ) 使 用 多 处 理 器 或 者 多 线程 进行 回收 的 策略 ; 注意 不 要 与 并 发 回收 混淆 。 

partial tracing (局 部 追踪 ) 仅 追 踪 对 象 图 的 某 一 子 集 ; 通常 是 指 试验 删除 (trial deletion) 算法 对 可 能 
是 垃圾 的 子 图 进行 追踪 。 

pause time (停顿 时 间 ) 执行 万 物 停 止 式 回收 时 赋值 器 被 挂 起 的 时 间 。 

pinning ($T) 阻止 回收 器 移动 特定 对 象 (通常 是 由 于 这 些 对 象 会 被 某 些 回收 器 无 法 感知 到 的 代码 访 
问 ， 例 如 系统 调用 )。 

pointer (指针 ) 对 象 在 内 存 中 的 地 址 。 

pointer field (指针 域 ) 包含 指针 的 域 。 

pointer reachability (指针 可 达 性 ) 所 有 存活 对 象 (以 及 部 分 死亡 对 象 ) 的 共同 特征 : 存在 一 条 从 根 
(root) 出 发 的 指针 链 最 终 可 以 到 达 这 些 对 象 。 

prefetching ( 预 取 ) 在 某 个 值 真 正 得 到 访问 之 前 先 将 其 加 载 到 高 速 缓存 中 。 
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prefetching on grey (灰色 预 取 ) 当 对 象 被 标记 为 灰色 之 后 预 取 它 的 首 个 高 速 缓存 行 中 的 数据 。 

pretenuring( 预 分 配 ) 分 代 回 收 中 直接 将 对 象 分 配 到 年 老 代 的 操作 。 

process (进程 ) 拥有 独立 地 址 空间 的 计算 机 程序 运行 实例 ; 一 个 进程 可 能 包含 数 个 并 发 执行 的 线程 。 

program order (程序 顺序 ) 程序 读 写 多 个 内 存 地 址 的 顺序 ; 也 可 参见 内 存 顺序 。 

prolific type ( 富 类 型 ) 拥有 众多 实例 的 对 象 类 型 。 

promoting (提升 ) 将 对 象 移动 到 年 老 代 的 行为 。 

promptness (及 时 性 ) 评判 回收 器 是 否 可 以 在 每 次 回收 过 程 中 都 将 所 有 垃圾 全 部 回收 的 标准 。 

queue (队列 ) 一 种 先进 先 出 数据 结构 ， 其 允许 从 后 端 (尾部 ) 添加 数据 、 从 前 端 ( 头 部 ) 移出 数据 。 

raw pointer (原生 指针 ) 即 朴 素 指针 (相对 于 智能 指针 (smart pointer) 而 言 )。 

reachable (可 达 性 ) 对 于 某 一 对 象 ， 是 否 存 在 一 条 从 赋值 器 根 出 发 的 指针 链 可 最 终 到 达 该 对 象 。 

read barrier ( 读 屏 障 ) 拦截 赋值 器 加 载 引 用 操作 的 屏障 。 

real-time (garbage) collection,RTGC( 实 时 (垃圾 ) 回收 ) 适用 于 实时 系统 的 并 发 回收 或 者 增 量 回收 。 

real-time system (实时 系统 ) 对 事件 发 生 后 的 系统 响应 存在 时 限 要 求 的 硬件 或 软件 系统 。 

reference (引用 ) 用 于 识别 对 象 的 正规 指针 。 

reference count (引用 计数 ) 反映 对 象 被 引用 次 数 的 数值 ， 通 常 位 于 对 象 的 头 部 。 

reference counting (引用 计数 回收 ) 通过 维护 每 个 对 象 被 引用 的 次 数 来 管理 对 象 的 垃圾 回收 策略 。 

reference listing (引用 链 ) 一 种 垃圾 回收 策略 : 回收 器 为 每 个 对 象 维护 一 个 链表 ， 链 表 中 记录 的 是 该 
对 象 的 所 有 引用 来 源 。 

region (区 域 ) 由 开发 者 或 者 编译 器 管理 的 空间 (通常 由 编译 器 自动 推导 出 ) ; 区 域 通常 可 以 在 常数 时 
间 内 被 清空 。 

relaxed consistency (宽松 一 致 性 ) 泛 指 所 有 比 顺 序 一 致 性 弱 的 一 致 性 模型 。 

release consistency (释放 一 致 性 ) 一 种 一 致 性 模型 : 获取 (acquire) 操作 能 够 阻止 后 续 访 问 操作 发 
生 在 获取 操作 之 前 ， 但 获取 操作 之 前 的 访问 则 可 以 发 生 在 获取 操作 之 后 ; 释放 (release) 操作 能 够 
阻止 更 早 的 访问 操作 发 生 在 释放 操作 之 后 ， 但 释放 操作 之 后 的 操作 则 可 以 发 生 在 释放 操作 之 前 。 

remembered set, remset (记忆 集 ) 记录 回收 器 必须 要 处 理 的 对 象 或 者 域 的 集合 ， 在 分 代 回 收 、 并 
发 回收 或 增 量 回收 中 ， 如 果 赋 值 器 创建 或 删除 的 指针 会 影响 回收 器 的 正常 工作 ， 则 赋值 器 需要 将 其 
记录 到 记忆 集中 。 

remset (记忆 集 ) 参见 记忆 集 。 

rendezvous barrier( 汇聚 屏障 ) 一 种 多 线程 同步 模型 : 等 待 所 有 线程 都 执行 到 某 一 点 之 后 再 往 下 执行 。 

replicate collection (副本 复制 回收 ) 一 种 并 发 复制 式 回收 技术 ， 其 为 存活 对 象 维护 两 份 (甚至 更 多 ) 
副本 。 

restricted deque ( 受 限 双 端 队列 ) 只 人 允许 在 一 端 添 加 或 移 除 对 象 的 双 端 队列 。 

resurrection (复活 ) 终结 方法 令 原本 不 可 达 的 对 象 重新 可 达 的 操作 。 

root ( 根 ) 赋值 器 不 需要 经 过 其 他 对 象 便 可 以 直接 访问 的 引用 。 

root object ( 根 对 象 ) 堆 中 直接 被 根 所 引用 的 对 象 。 

run-time system( 运行 时 系统 ) 支撑 应 用 程序 运行 的 代码 ， 通 常 提供 诸如 内 存 管理 、 线 程 调度 等 服务 。 

safety (安全 性 ) 回收 器 永远 不 得 回收 存活 对 象 的 特性 。 

scalar ( 纯 值 ) 非 引用 的 值 。 

scalar field ( 纯 值 域 ) 包含 纯 值 的 域 。 

scalar replacement ( 纯 值 蔡 换 ) 一 种 编译 器 优化 策略 : 使 用 局 部 变量 来 代替 对 象 中 的 域 。 

scanning (扫描 ) 依次 处 理 对 象 中 的 每 个 指针 域 的 操作 。 

scavenging (Smit) 将 存活 对 象 从 来 源 空间 中 挑 拣 出 来 的 操作 ， 也 可 参见 复制 式 回收 。 

schedulability analysis (可 调度 性 分 析 ) 针对 实时 任务 集合 的 分 析 ， 其 目的 在 于 判定 是 否 可 以 在 满足 
所 有 任务 响应 要 求 的 前 提 下 进行 调度 。 
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scheduler (调度 器 ) 确定 在 给 定时 间 内 哪些 线程 应 该 在 哪些 处 理 器 上 执行 的 操作 系统 组 件 。 

scheduling (调度 ) 确定 何 时 执行 一 个 回收 单元 。 

segregated-fits allocation (分 区 适应 分 配 ) 一 种 内 存 分 配 策略 : 将 对 象 按照 空间 大 小 分 级 进行 划分 ， 
以 达到 最 小 碎片 化 的 目的 。 

semispace ( 半 区 ) 复制 式 回 收 中 堆 所 划分 成 的 两 个 空间 中 的 一 个 。 

semispace copying ( 半 区 复制 ) 参见 复制 式 回收 。 

sequential allocation (顺序 分 配 ) 一 种 内 存 分 配 策略 : 从 内 存 块 一 端 开始 连续 地 分 配对 象 ; 通常 也 可 
称 为 阶 跃 指针 分 配 或 者 线性 分 配 。 

sequential consistency (顺序 一 致 性 ) 一 种 一 致 性 模型 ， 它 要 求 所 有 内 存 访问 操作 看 起 来 是 逐个 执行 
的 ， 且 每 个 处 理 器 所 感知 到 的 执行 顺序 符合 其 程序 顺序 。 

sequential fits allocation ( 顺序 适应 分 配 ) 一 种 空闲 链表 分 配 策略 : 顺序 查找 空闲 链表 ， 直 到 找到 第 

一 个 满足 分 配 要 求 的 内 存单 元 为 止 。 

sequential store buffer, SSB ( 顺序 存储 缓冲 区 ) 一 种 高 效 的 记忆 集 实 现 方式 ， 例 如 模块 链 。 

shared pointer (共享 指针 ) C++ 语言 中 支持 引用 计数 的 智能 指针 。 

simultaneous multithreading, SMT (同时 多 线程 ) 处 理 器 可 以 同时 执行 多 个 独立 线程 的 能 力 。 

size class ( 空间 大 小 分 级 ) 由 相同 分 配 和 回收 策略 管理 的 逻辑 对 象 集合 

slack-based scheduling (基于 间隙 的 调度 ) 一 种 实时 回收 调度 策略 ， 即 在 没有 实时 任务 的 时 候 执行 
回收 任务 。 

slot ($) 参见 域 。 

smart pointer (智能 指针 ) 一 种 指针 形式 ， 其 对 指针 的 复制 、 解 引用 等 操作 进行 重 载 ， 并 据 此 实施 内 
存 管理 操作 。 

snapshot-at-the-beginning (起 始 快照 ) 一 种 解决 对 象 丢失 问题 的 策略 ， 即 在 回收 周期 开始 时 记录 存 
活 对 象 集合 

soft real-time i ( 软 实时 系统 ) 一 类 实时 系统 : 系统 必须 在 严格 时 限 内 对 事件 做 出 响应 以 确保 
服务 质量 ; 如 果 响 应 超出 时 限 ， 则 服务 质量 将 受到 影响 。 

space (空间 ) 由 某 种 回收 算法 所 管理 的 堆 的 子 集 。 

spatial locality ( 空间 局 部 性 ) 如 果 程 序 访问 某 个 存储 器 地 址 后 ， 又 在 较 短 时 间 内 访问 邻近 的 存储 器 
地 址 ， 则 程序 具有 良好 的 空间 局 部 性 ; 两 次 访问 的 地 址 越 接 近 (例如 同一 页 或 者 同一 个 高 速 缓存 行 )， 
空间 局 部 性 越 好 。 

spin lock ( 自 旋 锁 ) 一 种 同步 锁 模型 : 线程 在 尝试 获取 锁 时 ， 如 果 获 取 失 败 ( 即 锁 被 其 他 线程 占有 )， 
则 简单 地 执行 循环 ， 直 到 获取 锁 为 止 。 

splitting (分 裂 ) 将 一 个 内 存单 元 拆 分 成 两 个 相 邻 的 内 存单 元 ; 也 可 参见 分 区 适应 分 配 。 

stack ( 栈 ) 只 允许 在 前 端 (上方 ) 添加 和 移出 元 素 的 后 进 先 出 数据 结构 ; 也 可 参见 调用 栈 。 

stack allocation ( 栈 上 分 配 ) 将 对 象 直 接 分 配 在 当前 方法 的 栈 帧 上 。 

stack barrier ( 栈 屏障 ) 用 于 拦截 线程 返回 (或 抛 出 异常 ) 操作 越过 调用 栈 中 指定 栈 帧 的 屏障 。 

stack frame ( 栈 帧 ) 在 调用 栈 上 分 配 的 活动 记录 。 

stack map ( 栈 映射 ) 记录 调用 栈 中 哪些 地 址 可 能 存在 指针 的 数据 结构 。 

static allocation (静态 分 配 ) 在 编译 期 就 可 以 确定 对 象 地 址 的 内 存 分 配 。 

step (Bt) 分 代 内 部 依照 对 象 年 龄 进行 隔离 的 子 空间 。 

sticky reference count (粘性 引用 计数 ) 已 经 达到 上 限 的 引用 计数 值 ， 该 值 将 不 受 后 续 指 针 更 新 操作 
的 影响 而 变化 。 

stop-the-world collection (万 物 静止 式 回 收 ) 需要 在 垃圾 回收 过 程 中 挂 起 所 有 赋值 器 线程 的 回收 策略 。 

store buffer (存储 缓冲 区 ) 参见 写 缓冲 区 。 

strict consistency (严格 一 致 性 ) 一 种 一 致 性 模型 ， 它 要 求 所 有 内 存 访问 操作 及 原子 操作 都 能 以 相同 
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的 顺序 被 所 有 处 理 器 感知 到 。 

strong generational hypothesis ( 强 分 代 假说 ) 即 “ 越 老 的 对 象 越 不 容易 死亡 ”这 一 假说 。 

strong reference ( 强 引 用 ) 会 影响 对 象 可 达 性 的 引用 ;一般 的 引用 都 是 强 引用 。 

strong tricolour invariant ( 强 三 色 不 变 式 ) 一 种 三 色 抽 象 不 变 式 ， 它 要 求 黑 色 对 象 不 得 引用 白色 对 象 。 

sweeping (清扫 ) 在 堆 或 堆 的 子 集 中 进行 线性 扫描 ， 并 将 未 标记 的 (死亡 ) 对 象 回收 的 过 程 。 

symmetric multiprocessor (对 称 多 处 理 器 ) 共享 内 存单 元 与 处 理 器 相互 独立 的 多 处 理 器 。 

task (任务 ) 进程 或 者 线程 的 工作 单元 ， 通 常用 于 实时 系统 。 

tebibyte，TiB ( 太 字 节 ) 2” 字 节 的 标准 计量 单位 ; 也 可 参见 太 字 节 (terabyte). 

temporal locality (时 间 局 部 性 ) 如 果 被 访问 过 的 存储 器 地 址 在 较 短 时 间 内 被 再 次 访问 ， 则 程序 具有 
良好 的 时 间 局 部 性 ; 同一 个 地 址 的 两 次 访问 间隔 时 间 越 得， 时间 局 部 性 越 好 。 

tenuring (提升 ) 参见 提升 。 

terabyte ( 太 字 节 ) 2” 字 节 的 常用 计量 单位 ; 也 可 参见 太 字 节 (tebibyte)。 

test-and-set lock (检测 并 设置 锁 ) 参见 自 旋 锁 。 

test-and-test-and-set lock( 检 测 - 检测 并 设置 锁 ) 一 种 开销 较 低 的 检测 并 设置 锁 ， 即 程序 仅 在 锁 “ 看 
起 来 ”未 被 占用 时 才 使 用 昂贵 的 硬件 原子 操作 。 

thread (线程 ) 某 一 地 址 空间 内 的 一 个 顺序 执行 路 径 ， 是 操作 系统 的 最 小 调度 单元 ; 也 可 参见 进程 。 

threaded compaction (引线 整理 ) 一 种 整理 技术 : 将 引用 了 某 一 对 象 的 所 有 对 象 链接 起 来 ， 从 而 可 
以 找到 引用 了 该 对 象 的 所 有 对 象 。 

tidy pointer ( 正规 指针 ) 可 以 用 作对 象 引 用 的 正规 指针 。 

time-based scheduling (基于 时 间 的 调度 ) 一 种 实时 回收 调度 策略 : 为 回收 器 预 留 出 特定 比例 的 独占 
式 执行 时 间 ， 且 在 回收 器 执行 期 间 赋 值 器 将 处 于 挂 起 状态 。 

tospace ( 目标 空间 ) 复制 式 回收 中 用 于 容纳 存活 对 象 的 半 区 。 

tospace invariant (目标 空间 不 变 式 ) 即 “ 赋 值 器 仅 持 有 指向 目标 空间 对 象 的 引用 ”这 一 不 变 式 。 

tracing (追踪 ) 对 整个 或 者 部 分 对 象 图 进行 访问 以 找到 可 达 对 象 的 过 程 。 

tracing collection (追踪 式 回收 ) 一 种 间接 回收 技术 : 以 追踪 的 方式 获取 对 象 图 中 的 所 有 存活 对 象 ， 
进而 反 推出 所 有 垃圾 对 象 。 

train (列车 ) 成 熟 对 象 空间 回收 器 的 一 个 组 件 。 

transaction (事务 ) 必须 原子 性 地 执行 的 一 组 读 写 操作 集合 。 

transaction abort (事务 中 止 ) 事务 不 成 功 地 结束 ， 其 造成 的 所 有 影响 都 被 抛弃 。 

transaction commit (事务 提交 ) 事务 成 功 地 结束 ， 且 其 作用 可 见 。 

translation lookaside buffer, TLB (转译 后 备 缓冲 区 ) 用 于 缓存 (部分) 虚拟 地 址 和 物理 地 址 映射 关 
系 的 内 存 管理 单元 。 

traversal (遍历 ) 访问 图 中 的 每 个 节点 ， 且 确保 每 个 节点 仅 被 访问 一 次 。 

trial deletion (试验 删除 ) 临时 性 地 删除 一 个 引用 ， 进 而 确定 该 操作 是 否 会 导致 某 一 对 象 的 引用 计数 
变 为 零 。 

tricolour abstraction (三 色 抽 和 象 ) 一 种 对 垃圾 回收 工作 方式 的 描述 : 将 对 象 划 分 为 白色 (尚未 访问 到 )、 
黑色 (已 经 访问 过 )、 灰 色 (剩余 工作 ， 后 续 还 会 访问 到 )。 

type-accurate (类 型 精确 ) 即 回收 器 可 以 精确 地 识别 出 每 个 包含 指针 的 槽 或 者 根 。 

ulterior reference counting ( 超 引 用 计数 ) 一 种 引用 计数 策略 : 使 用 复制 的 方式 管理 年 轻 对 象 ， 使 用 
引用 计数 方法 管理 年 老 对 象 。 

unique pointer (唯一 指针 ) 一 种 智能 指针 形式 ， 它 可 以 确保 目标 对 象 仅 被 该 指针 所 引用 。 

virtual machine，VM (虚拟 机 ) 对 底层 硬件 细节 和 操作 系统 进行 抽象 的 运行 时 系统 。 

wait-free (无 等 待 ) 一 种 多 线程 同步 模型 : 无 论 是 针对 整个 系统 ， 还 是 针对 每 个 线程 ， 线 程 操作 都 可 
以 在 有 限 步 又 内 完成 ; 也 可 参见 非 阻塞 。 
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wavefront ( 回收 波 面 ) 垃圾 回收 过 程 中 由 灰色 对 象 ( 即 正在 处 理 的 对 象 ) 组 成 的 边界 ， 它 将 黑色 对 象 
(已 经 处 理 过 ) 和 和 白色 对 象 (尚未 处 理 过 ) 隔离 。 

weak consistency ( 弱 一 致 性 ) 将 每 种 原子 操作 都 当 作 完全 内 存 屏障 的 一 致 性 模型 。 

weak generational hypothesis ( 弱 分 代 假 说 ) 即 “ 大 多 数 对 象 都 在 年 轻 时 死亡 ”的 假说 。 

weak reference ( 弱 引 用 ) 不 会 对 目标 对 象 的 可 达 性 造成 影响 的 引用 ; Java 提供 多 种 方式 的 弱 引 用 。 

weak tricolour invariant ( 弱 三 色 不 变 式 ) 一 种 三 色 抽 象 不 变 式 ， 它 要 求 从 黑色 对 象 可 达 的 白色 对 象 
必须 从 灰色 对 象 可 达 (可 能 是 直接 可 达 ， 也 可 能 经 过 一 条 白色 对 象 链 ) 。 

white (白色 ) 如 果 一 个 对 象 尚未 被 回收 器 处 理 ， 则 称 该 对 象 是 白色 的 ; 回收 周期 完成 后 ， 白 色 对 象 即 
为 死亡 对 象 ; 也 可 参见 三 色 抽 象 。 

wilderness (拓展 块 ) 堆 中 最 后 一 个 空闲 内 存 块 。 

wilderness preservation (拓展 块 保护 ) 一 种 内 存 分 配 策略 : 将 拓展 块 作为 内 存 分 配 的 最 后 备 选 空间 。 

work stealing (工作 窃取 ) 一 种 线程 间 负 载 均衡 策略 : 轻 负载 线程 从 重负 载 线程 中 拉 取 部 分 工作 。 

work-based scheduling (基于 工作 的 调度 ) 一 种 实时 回收 调度 策略 ， 它 要 求 每 个 赋值 器 工作 单元 都 
必须 处 理 一 定 的 回收 工作 。 

worst-case execution time, WCET (最 差 执行 时 间 ) 某 一 硬件 平台 下 完成 某 一 操作 所 需 的 最 长 时 间 ; 
该 值 对 于 硬 实 时 系统 的 可 调度 性 分 析 不 可 或 缺 。 

write barrier ( 写 屏 障 ) 用 于 拦截 赋值 器 存储 引用 操作 的 屏障 。 

write buffer ( 写 缓冲 区 ) 存放 待 写 人 内 存 的 数据 的 缓冲 区 。 

young generation (年 轻 代 ) 参见 新 生 区 。 

zero count table, ZCT ( 零 引 用 表 ) 记录 引用 计数 为 零 的 对 象 的 表 。 
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Brooks’s indirection barrier ( Brooks 间接 屏障 )， 
340 ~ 341, 386, 391, 393, 404 一 407 

Read, 341 
Write, 341 

Buddy system allocation (伙伴 系统 分 配 )， 参 见 
Segregated-fits allocation (分 区 适应 分 配 )， 
splitting cell (内 存单 元 分 裂 ) 

Buffered reference counting (缓冲 引用 计数 )， 参 
见 Concurrent reference counting (并 发 引 
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用 计数 )，buffered (缓存 ) 


C 


C, 104, 106, 161, 162, 165, 168, 170, 171, 
182, 185, 188 
C++, 3, 59, 104, 170, 185, 188, 340, 346 
Boost library (Boost J#), 59, 228 
C++0x, 3 
destructor ( 析 构 函数 )，220 
Standard Template Library (标准 模板 库 )，3 
C4 collector (C4 回收 器 )， 参 见 Concurrent copying 
and compaction (并 发 复制 与 整理 ), Pauseless 
collector (Pauseless 回收 器 ) 
C#, 53, 150, 218 
Cache behaviour (高 速 缓存 相关 行为 )，78 ~ 80, 
133,191,208， 也 可 参见 Locality (局 部 性 ) 
alignment effect (对 齐 效 应 )，97 
allocation (分 配 )，100，105 
block-based allocation (基于 内 存 块 的 分 配 )， 
95 
marking (标记 )，21 ~ 22, 27 ~ 29 
mutator performance (赋值 器 性 能 )， 参 见 Copying 
(复制 )，improve mutator performance ( 提 
升 赋值 器 件 能 ) 
next-fit allocation (循环 首次 适应 分 配 )，90 
partitioning by kind (根据 类 别 进行 分 区 )，105 
sequential allocation (顺序 分 配 )，88 
threaded compaction (引线 整理 )，38 
Treadmill collector( 转 轮回 收 器 )，139 
Two-Finger algorithm( 双 指针 算法 )，34 
zeroing( 清 零 )，165，166 
Cache hit (高 速 缓存 命中 )，231 
Cache line (高 速 缓存 行 )，12，152，230，231 
dirty (WÈ), 231 
eviction (淘汰 )，231，235 
false sharing ( 伪 共享 )，232 
flushing (刷新 )，231，235 
victim (牺牲 )，231 
Cache miss (高 速 缓存 不 命中 )，231，235 
Cache (高 速 缓存 ) 
associativity( 相 联 性 ) 
direct-mapped (直接 映射 )，231 
fully-associative (全 相 联 )，231 
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set-associative (4H HK), 231 
coherence (一 致 性 )，232 ~ 234 
contention (竞争 )，233 
exclusive (排他 ) /inclusive (包容 )，231 
level (分 级 )，231 
replacement policy (置换 策略 )，231 
write-back ( 写 回 )，231，232，235 
write-through (Ñ), 231 
Canonicalisation table (规范 化 表 )，221，222 
Card table ( F 表 )，12，124，151，156，193， 
197 ~~ 201， 也 可 参见 Crossing map ( 跨 
越 映 射 ) 
concurrent collection (并 发 回收 )，318 ~ 321 
space overhead (空间 开销 )，198 
summarising card (汇总 卡 )，201，319 
two-level (两 级 )，199 
Write, 198 
Card (¥), 12 
Cartesian tree (Cartesian W ), Æ 见 Free-list 
allocation (空闲 链表 分 配 )，Cartesian tree 
(Cartesian 树 ) 
Cell (内 存单 元 )，12 
Cheney scanning (Cheney 扫 描 )， 参 见 Baker’s 
algorithm (Baker 算法 )，Copying (复制 ); 
Copying (复制 )，work list (工作 列表 ) 
Chunked list (内 存 块 链 表 )，203 ~ 204 
Chunk (内 存 块 )，12，103 
for partitioning (分 区 )，108 
Circular buffer ( 环 状 缓冲 区 )， 参 见 Concurrent 
datastructure( 并 发 数据 结构 ),queue( 队列 )， 
bounded (ZPR), buffer (缓冲 区 ) 
Closure ( 闭 包 )，1，8，99，125，132，162，170， 
190，216，341 
Cold ( 冷 )， 参 见 Hot and cold ( 热 与 冷 ) 
collect，174 
Baker’s algorithm (Baker 算法 )，339 
basic mark-sweep (基本 标记 -清扫 )，18 
concurrent mark-sweep (并 发 标记 -清扫 ) 
(collectEnough), 324 
concurrent reference counting (并 发 引用 计数 ) 
age-oriented (面向 年 龄 )，371 
buffered (缓冲 )，367 
sliding view (滑动 视图 )，371 
copying (复制 )，52 


semispace ( 半 区 )，45 
generational (分 代 )，abstract (抽象 )，135 
incremental tracing ( 增 量 追 踪 )(collectTracing 
Inc), 333 
mark-compact (标记 一 整理 )，32 
real-time collection (实时 回收 ), replicating ( 副 
本 复制 )，382 
reference counting (引用 计数 ) 
abstract (抽象 )，83 
abstract deferred (抽象 延迟 )，84 
coalesced (合并 )，65 
deferred (延迟 )，62 
tracing (追踪 )，abstract (抽象 )，82 
collectNursery, 135 
Collector (回收 需 )，12 
Collector thread (回收 器 线程 )，12，15 
collectoron/off，real-time collection (实时 回 
收 )，replicating (副本 复制 )，382，383 
compact 
mark-compact (标记 一 整理 )，33，35 
Compressor, 40 
threaded compaction (引线 整理 )，37 
Compaction (整理 ) 
concurrent (并 发 )， 参 见 Concurrent copying 
and compaction (并 发 复制 与 整理 ) 
incremental ( 增 量 )， 参 见 Hybrid mark-sweep， 
copying (混合 标记 - 清扫、 复制 ) 
need for (必要 性 )，40 
parallel (并 行 )，299 一 302 
Compressor，302， 也 可 参见 Concurrent copying 
and compaction (并 发 复制 与 整理 ) 
Flood 等 ，300 ~ 301, 357 
Compare-and-swap (比较 并 交换 )，237 ~ 238, 243, 
也 可 参见 Concurrency (3f: YE), hardware 
primitive (硬件 原 语 )，compareandswap 
CompareAndSet, 237 
CompareAndSet2, 242 
CompareAndSetByLLSC, 239 
CompareAndSetWide, 242 
CompareAndSwap, 237, 239, 243, 252, 254, 
257; 260; 281; 283; 285, 292, 293, 
343 ~ 345, 358, 360, 364 ~ 366, 378, 
384, 406, 407, 409 ~ 412 
CompareAndSwap2, 241, 242, 344, 365, 374 
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compareAndSwapByLLScC, 239 
CompareAndSwapWide, 241, 242, 257, 406, 
412 
compareThenCompareAndSwap, 238 
Comparing collector (回收 器 之 间 的 比较 ), 77 ~ 85 
Compiler analysis (编译 器 分 析 )，132，144 一 146 
escape analysis (逃逸 分 析 )，109，147 
Compiler optimisation (编译 器 优化 ),，6，10，53， 
61, 104, 148, 168, 187, 190, 192, 
Zile 218, 2264 235; 270; .323, 341, 
382, 394 
Compiler replay (编译 器 重 放 )，10 
Completeness (完整 性 )，6，79，313 
Beltway collector ( 带 式 回 收 器 )，130，140 
partitioned collection (分 区 回收 )，1 
computeLocations,mark-compact( te 一 整理 )， 
35 
Concurrency (并 发 )，56， 也 可 参见 Lock-free 
algorithm (无 锁 算 法 )，Wait-free algorithm 
(无 等 待 算法 ) 
consensus algorithm (一 致 算法 )，240，243， 
247，248 
consensus number (一 致 数 )，240 
happens-before ( 先 于 关系 )，236 
hardware (硬件)，229 ~ 243 
interconnect (HK), 230 ~ 231 
hardware primitive (硬件 原 语 ), 233, 234, 
237 ~ 242， 也 可 参见 primitive ( 原 语 ) 
AtomicAdd, 241 
AtomicDecrement, 241 
AtomicExchange, 233 
AtomicIncrement, 241 
CompareAndSet2, 242 
CompareAndSetWide, 242 
CompareAndSet, 237 
CompareAndSwap, 237 
CompareAndSwap2, 242 
CompareAndSwapWide, 242 
FetchAndAdd, 241 
LoadLinked, 238 
multi-word (F), 240-242 
relative power (相对 强度 )，240 
StoreConditionally, 238 
TestAndSet, 234 
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time overhead ne ), 242 ~ 243 
linearisability( 线 性 化 )， 参 见 Linearisability (2% 
性 化 ) 
livelock ( 活 锁 )，244 
memory consistency (内 存 一 致 性 )，234 ~ 237, 
378 
acquire-release model (获取 -释放 语义 ) 
236 
causal (AR), 236 
memory order (内 存 顺序 )，235 
program order (程序 顺序 )，235 
relaxed (宽松 )，237，265，331， 
release (释放 )，236 
sequential (顺序 )，236 
strict (严格 )，236 
memory fence (内 存 屏 障 )，236，245，246， 
285, 374, 407 
mutual exclusion (JF), 246 ~ 248, 253, 254 
Peterson’s algorithm (Peterson #74), 247 
progress guarantee (前 进 保障 )，243 ~ 245 
lock-free (无 锁 )，243 
mutual exclusion ( 互 斥 )，246 
obstruction-free (无 障碍 )，243 
wait-free (无 等 待 )，243 
shared memory (共享 内 存 )，231 
Concurrent algorithm (并 发 算法 )， 也 可 参见 
Concurrent collection (并 发 回收 ) 
Concurrent collection (并 发 回收 ) 7, 244, 275, 276, 
307 ~ 321, +4 Hl Æ Ul specific concurrent 
collection algorithm (特定 并 发 回收 算法 ) 
abstract (抽象 )， 参 见 Abstract concurrent collection 
(抽象 并 发 回收 ) 
collector liveness (回收 器 存活 性 )，309，313， 
344 
compaction (整理 )， 参 见 Concurrent copying 
and compaction (并 发 复制 与 整理 ) 
copying (复制 )， 参 见 Concurrent copying and 
compaction (并 发 复制 与 整理 ) 
correctness (正确 性 )，309 一 314 
deletion barrier (删除 屏障 )，317，318，328， 
329, 345, 391 
Abraham and Patel, ÆJ. Yuasa 
logging (Ha), 331 
Yuasa, 317, 318, 323, 329, 1330, 335, 
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378 
handshake (握手 ), 328, 329, 331, 343, 369 一 
371, 373, 394 
incremental update approach ( 增 量 更 新 方式 )， 
314 
insertion barrier (插入 屏障 )，315，394 
Boehm 等 ，315，318，323 
Dijkstra 等 ，315，318，323，326，329， 
330, 335, 340, 370, 386, 413 
Steele, 315, 318, 323, 326, 335 
lost object problem〈 对 象 丢失 问题 )，310 一 312 
mark-sweep (标记 -清扫 )， 参 见 Concurrent 
mark-sweep( 并 发 标记 一 清扫 ) 
mostly-concurrent (主体 并 发 )，307，308 
on-the-fly (即时 )，107，308，309，313，332， 也 
可 参见 specific concurrent collection algorithms 
(特定 并 发 回收 算法 ) 
progress guarantee (前 进 保障 )，244 
read barrier ( 读 屏障 )，314 ~ 321, 323, 346 
Appel 等 ，317，318，340 
Baker, 317, 318, 338, 340 
Brooks’s indirection barrier ( Brooks 间 接 
屏障 )， 参 见 Brooks's indirection barrier 
(Brooks 间接 屏障 ) 
Compressor, 352 一 354 
Pauseless, 355 
self-erasing ( 自 删除 )，340 ~ 341 
self-healing (自我 修复 )，357，358，360 
replicating (副本 复制 )， 参 见 Concurrent copying 
and compaction (并 发 复制 与 整理 )， 
replicating collection (副本 复制 回收 ) 
snapshot-at-the-beginning approach (起 始 快照 
方式 )，314 
termination (结束 )，244，248 ~ 252, 313, 332 
throughput (吞吐 量 )，313 ，345 
work list (工作 列表 )，319 
write barrier ( 写 屏 障 )，314 ~ 321, 330, 348 
mechanism (机 制 )，318 一 320 
on-the-fly mark-sweep (即时 标记 一 清扫 )， 
329 
time overhead (时 间 开 销 )，342 
Concurrent copying and compaction (并 发 复制 与 
整理 )，337 ~ 361 
C4 collector (C4 回 收 器 )， 参 WL Concurrent 
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copying and compaction( 并 发 复制 与 整理 )， 
Pauseless collector (Pauseless 回收 器 ) 

compaction (整理 ), 351 ~ 361, 391, th Ay 
& 见 Concurrent copying and compaction 
(并 发 复制 与 整理 )，Pauseless collector 
(Pauseless 回收 器 ) 

Compressor, 352 ~ 354， 也 可 参见 Compaction 
(整理 )，parallel (并 行 )，Compressor copying 
(Compressor 回收 器 的 复制 )，337 ~ 351 

mostly-concurrent (主体 并 发 )， 参 见 Baker's 
algorithm (Baker 算法 ) 

fromspace and tospace invariant (来 源 空间 与 目 
标 空间 不 变 式 )，337，341，345，378 

mostly-copying collection (主体 复制 式 回收 )， 
338 ~ 340 

multi-version copying (多 版 本 复制 )，342 ~ 345 

Pauseless collector (Pauseless 回收 器 )，355 ~ 361 

real-time (实时 )， 参 见 Real-time collection (X 
时 回收 )，compaction (整理 ) 

replicating collection (副本 复制 回收 )，289， 
34] ~ 351， 也 可 参见 multi-version copying 
(多 版 本 复制 ) 

real-time (实时 )， 参 见 Real-time collection ( 实 
时 回收 )，replicating (副本 复制 ) 

Sapphire collector ( Sapphire 回收 器 )，345 ~ 
351, 386 

copyWord, 350 
Java volatile field (Java volatile $È), 351 
write, 4 il Sapphire phases ( Sapphire 回收 
器 的 各 阶段 ) 
write barrier ( 写 屏 障 )，349 
termination (结束 )，342，357，358 


Concurrent data structure (并 发 数据 结构 ),253 一 267 


buffer (缓冲 区 )，256，261 ~ 267, 298 

circular buffer 环 状 缓冲 区 )， 参 见 queue( 队 列 )， 
bounded (ZPR), buffer (缓冲 区 ) 

coarse-grained locking( 粗 粒度 锁 ), 参见 Lock( 锁 ) 

counting lock〈 计 数 锁 )，253 254 

deque ( 双 端 队列 )，251，331 

fine-grained locking( 细 粒度 锁 )， 参 见 Lock( 锁 ) 

lazy update (懒惰 更 新 )，255 

linked-list (链表 )，256 ~ 261, 271 

non-blocking ( 非 阻 塞 )，255 

optimistic locking (乐观 锁 )， 参 见 Lock ( 锁 ) 
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queue (队列 )，256 ~ 267 
bounded (52 KR ), 256, 259, 261 ~ 268, 
271 
double-ended (Lig), BL deque ( 双 端 队列 ) 
unbounded (ERR), 256, 258, 260 
stack ($R), 256 一 257 
Concurrent mark-sweep( 并 发 标记 一 清扫 ),323 ~ 
335, 391 
abstract (fi #), Æ JL Abstract concurrent 
collection (抽象 并 发 回收 ) 
allocation (分 配 )，324 一 326 
collect (collectEnough), 324 
handshake (HF), 328, 329, 331 
insertion barrier (插入 屏障 ) 
Dijkstra 等 ，331 
marking (标记 )，324，325，356 
New，324 
on-the-fly (即时 )，328-331 
marking from stack (从 栈 开 始 标记 )，328， 
358 
sliding view (滑动 视图 )，331 
sweeping (7744), 330 
concurrently with marking( 与 标记 过 程 并 发 )， 
326 ~ 328 
termination (4598), 324 ~ 326, 328, 330 
triggering collection (触发 回收 )，323 ~ 324 
Concurrent reference counting (并 发 引用 计数 )， 
363 一 374 
age-oriented (面向 年 龄 )，369 一 372 
New，372 
Write，372 
buffered (缓冲 )，366 一 367 
collect，367 
Write，367 
coalesced (合并 )，368 一 369， 也 可 参见 sliding 
view (滑动 视图 ) 
incrementNew，368，369 
Write，370 
correctness (正确 性 )，363 一 366 
cycle ( 环 )，366 ~ 369, 372 一 373， 也 可 参 
见 Recycler algorithm ( Recycler 算 法 )， 
asynchronous (异步 ) 
deferred (延迟 ),366， 也 可 参见 buffered (缓冲 ) 
generational (分 代 ),369， 参 见 age-oriented (if 
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向 年 龄 ) 
handshake (握手 )，369 一 371，373 
on-the-fly (即时 )， 参 见 sliding view (滑动 视图 ) 
race (竞争 )，363 ~ 366, 370 
Read, 364, 365 
sliding view (滑动 视图 )，369 一 374 
collect，371 
incrementNew，368，369，372 
New，372 
Write，370，372，373 
snapshot of heap( 堆 快照 )， 参 见 coalesced( 合 并 ) 
snooping write barrier (窥探 写 屏障 )，370 
trial deletion (试验 删除 ), 373， 也 可 参见 
Recycler algorithm (Recycler 算法 ) 
Write, 364, 365 

Connectivity-based collection (基于 相关 性 的 回 

收 )，143 ~ 144 
time overhead (时 间 开 销 )，144 

Conservative collection (保守 式 回 收 ), 30, 104, 105, 
也 可 参见 Boehm-Demers-Weiser collector 
(Boehm-Demers-Weiser 回收 器 ) 

bitmap marking (位 图 标记 )，23 

copy 
Baker’s algorithm (Baker 算法 )，339 
copying (42 il), semispace ( 半 区 )，45 

Copy reserve( 复制 保留 区 )， 参 见 Copying( 复 制 )， 
copy reserve (复制 保留 区 ) 

Copying (复制 ),17, 43 ~ 56, 79, 126, 127, 
140, 152, 157, 158, th al Æ I Hybrid 
mark-sweep, copying (混合 标记 -清扫 、 
复制 ) 

allocate, 44 
approximately depth-first ( 准 深度 优先 )， 人 参见 
traversal order (遍历 顺序 ) 
asymptotic complexity (渐进 复杂 度 )，54 
breadth-first (广度 优先 )， 参 见 traversal order 
(遍历 顺序 ) 
Cheney scanning (Cheney 扫 fii ), 46 ~ 48, 
139, 145, 146, 150, 156, 294, 295, 
338, 386 
parallel (并 行 )，289 
termination (结束 )，46 
collect, 45, 52 
concurrent (Jf 4), 312, Bk, Concurrent copying 
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and compaction (并 发 复制 与 整理 ) 
copy, 45 
copy reserve (42 iil RPA IX), 54, 116, 119, 121, 
122, 126 ~ 128, 137, 139, 149, 154 
depth-first (深度 优先 )， 参 见 traversal order (sid 
历 顺 序 ) 
flip, 45 
flipping (翻转 )，139 
forwarding address (转发 地 址 )， 参 见 Forwarding 
address (转发 地 址 )，copying collection ( 复 
制式 回收 ) 
fragmentation solution (去 碎片 化 解决 方案 )， 
43 
hierarchical decomposition (层次 分 解 )， 参 见 
Hierarchical decomposition (层次 分 解 ) 
improve mutator performance( 提 升 赋值 器 性 能 )， 
49 ~ 53, 106 
Moon’s algorithm (Moon #3#), 50, 51 
mostly-copying collection (主体 复制 式 回收 ), 30, 
104 
moving object (移动 对 象 )，55 
optimal object order (最 佳 对 象 顺序 )，49 
order (顺序 )， 参 见 traversal order (遍历 顺序 ) 
paging behaviour ( 换 页 行为 )，50 
parallel (并 行 )，279，289 ~ 298 
Blelloch and Cheng，289 一 292 
card table〈 卡 表 )，298 
channel (通道 )，298 
Cheng， 参 见 Blelloch and Cheng 
Cheng and Blelloch ， 人 参见 Blelloch and Cheng 
dominant-thread tracing (支配 线程 追踪 )， 
293 ~ 294 
Flood 等 ，292 一 293，298 
generational (分 代 )，298 
Imai and Tick, 294 ~ 296 
Marlow 等 ，296 
memory-centric( 以 内 存 为 中 心 )，294 一 298 
Oancea 等 ， 参 见 channel (通道 ) 
Ogasawara, ÆJ dominant-thread tracing ( 支 
配 线程 追踪 ) 
processor-centric( 以 处 理 器 为 中 心 ), 289 ~ 294 
remembered set (记忆 集 )，298 
room (工作 空间 )，382， 参 见 Blelloch and 
Cheng 


Siegwart and Hirzel, 296 一 297 
termination (4/52), 292, 298 
performance (TEE), 49, 54 
reordering ( 重 排序 )，46 ~ 53, 296 
online (在 线 )，52 
replicating collection (副本 复制 回收 )， 参 见 
Concurrent copying and compaction (并 发 
复制 与 整理 )，Replicating collection (副本 
复制 回收 ) 
scan, 45 
semispace ( 半 区 ), 43 ~ 56, 78, 102, 139, 
192 
allocation issue (分 配 问题 )，53 
Beltway ( 带 式 )，130，131 
flipping (翻转 )，43 
overview (溢出 )，43 
space overhead (空间 开销 )，44，53 ，54 
termination (结束 )，44 
traversal order (遍历 顺序 )，46 一 53，139， 也 
可 参见 Hierarchical decomposition (层次 
分 解 ) 
approximately depth-first ( 准 深 度 优先 )，50， 
51 
breadth-first ERA), 49, 50 
depth-first (REE), 49, 50, 53 
work list (工作 列表 )，43 ，46，298 
Cheney scanning (Cheney 扫描 )，44 一 46 
implementation (实现 )，44 ~ 53 
stack ($R), 44 

copyWord (Sapphire), 350 

Correctness (EME), 13, 79, 278 

countingLock, 254 

Critical section (临界 区 )， 参 见 Concurrency (并 
发 )，mutual exclusion ( 互 斥 ) 

Crossing map (跨越 映射 )，101，182，199 ~ 201, 
也 可 参见 Card table (EX); Heap parsing (HE 
解析 ) 

search, 200 

Custom allocator ( 自 定义 分 配器 )， 参 见 Allocator 
(分 配器 )，custom ( 自 定义 ) 

Cyclic data structure ( 环 状 数据 结构 )，3，140， 
157， 也 可 参见 Reference counting (引用 
计数 )，cycle segregating ( 环 状 分 区 )，105 

Cyclone, 106 
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Dangling pointer( FEI Et), BIL Pointer( 指 针 )， 
dangling (悬挂 ) 

Deadlock (3684), 2 

Deallocation (释放 )，explicit ( 显 式 ), 2~ 3 

decide, 243, 247 

decNursery, 136 

decrementOld, reference counting (引用 计数 )， 
coalesced (合并 )，65 

Demographic (分 布 特征 )，of object (对 象 )，105 

Dependent load (依赖 加 载 )，235 

Deque( 双 端 队列 )， 参 见 Concurrent data structure 
(并 发 数据 结构 )，deque (XU i BA FI), 
queue (队列 ) 

Derived pointer (派生 指针 )， 参 见 Pointer (指针 )， 
derived (派生 ) 

Dijkstra, ÆJ Concurrent collection( 并 发 回收 )， 
insertion barrier (插入 屏障 ) 

Dynamic compilation (动态 编译 )，10，187 

Dynamic memory allocation (动态 内 存 分 配 ) 

description (描述 )，1 
heap allocation( 堆 分 配 )，1 
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Eden， 参 见 Generational collection (分 代 回 收 )， 
generation( 分 代 ),young( 年 轻 ),nursery( 新 
生 区 ) 

enterRoom, 291 

Ephemeral collection (短暂 回收 )， 参 见 Generational 
collection (分 代 回 收 ) 

Ephemeron (寄生 对 组 ),227， 也 可 参见 Reference( 引 
FA), weak (55) 

Epoch (HEt), 60, 368 

ragged ( 非 协同 )，366，402 

Ergonomic collector (Ergonomic 回收 器 )， 人 参见 
HotSpot collector (HotSpot 回收 器 ) 

Erlang, 146， 也 可 参见 Functional language (函数 
式 语 言 ) 

Escape analysis (逃逸 分 析 )， 参 见 Compiler analysis 
(编译 器 分 析 )，escape analysis (逃逸 分 析 ) 

Evacuating (迁移 )，43 

Evacuation threshold (迁移 阔 值 )， 人 参见 Hybrid 
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mark-sweep, copying (混合 标记 -清扫 、 
复制 ) 

ExactVM，118，138，145 

exchangeLock，233 

exitRoom，291 

Explicit deallocation ( 显 式 释放 )， 人 参见 Deallocation 
(释放 )，explicit ( 显 式 ) 

Explicit freeing( 显 式 释放 )， 参 见 Deallocation( FE 
放 )，explicit ( 显 式 ) 

External pointer( 外 部 指针 )， 参 见 Pointer (指针 )， 
external (外 部 ) 
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False sharing ( 伪 共 享 )， 参 见 Cache line (高 速 组 
存 行 )，false sharing (HHF) 
Fast and slow path (快速 路 径 与 慢 速 路 径 )，80， 
164, 165, 191 
block-structured allocation ( 块 结构 分 配 )，53 
Fast-fits allocation (快速 适应 分 配 )， 参 见 Free- 
listallocation (空闲 链表 分 配 )，Cartesian 
tree (Cartesian 树 ) 
Fat pointer( 肥 指针 )， 参 见 Pointer (指针 ),fat (AE) 
FetchAndAdd, 241, 264, 265, 289 一 291, 
377, 382, 383 
Field (4), 12 
Finalisation (4), 13, 213 ~ 221, 223, 224, 
330 
-NET, 220° 221 
C++, 220 
concurrency (并 发 )，216，218 ~ 219 
context (上 下 文 )，216 
cycle of object (对 象 环 )，218 
error (441%), 217 
Java, 219 ~ 220 
Lisp, 220 
order of (顺序 )，217 ~ 218, 225 ~ 226 
reference counting ( 引 用 if % ), 214, 216, 
220 
resurrection (4274), 13, 216 
thread (线程 )，215 ~ 216 
time of (时 间 )，214 ~ 215 
First-fit (首次 适应 )， 参 见 Free-list allocation (43 
闲 链表 分 配 )，first-fit (首次 适应 ) 
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Fixed-point (定点 解 )，81 
least (最 小 )，81，84 一 85 
flip 
Baker’s algorithm (Baker 算法 )，339 
concurrent copying and compaction (并 发 复制 
与 整理 ) 
multi-version copying (多 版 本 复制 )，343 
copying (fil), semispace CEK), 45 
Floating garbage (浮动 垃圾 )，7，79，106，113， 
313, 327, 328, 330 
Forwarding address (转发 地 址 ), 8, 36, 42, 126, 
147, 299, 390, 405, 406 
allocation (47 fC), 98 
Baker’s algorithm (Baker #7), 339 
compaction ($FE), 407 ~ 409 
Compressor, 38, 301, 302, 353 
copying collection〈 复 制式 回收 )，44，292 ~ 293, 
300, 305, 340, 342 ~ 345, 378 ~ 379, 
389 
Lisp 2 (Lisp 2 算法 )，34 
Pauseless, 355, 356, 358, 360 
Sapphire, 349 
Two-Finger algorithm ( 双 指 针 算 法 )，32 
Fragmentation (碎片 化 )，30 ~ 31, 53, 78, 93, 
105, 149, 152, 154, 296, 300, 391, 
415 
asymptotic lower bound (渐进 下 界 )，30 
block-based allocation (基于 内 存 块 的 分 配 )， 
96 
copying eliminate (通过 复制 的 方式 消除 )，43 
external and internal (外 部 与 内 部 )，95 
large object (大 对 象 )，137 
mark-sweep( 标 记 一 清扫 )，41 
negative effect (负面 作用 )，93 
next-fit allocation (循环 首次 适应 分 配 )，90 
old generation (年 老 代 )，126 
pinned object (被 钉 住 的 对 象 )，186 
real-time collection (实时 回收 )，403 一 415 
segregated-fits allocation (分 区 适应 分 配 )，95 
Frame ( 框 )，12，204 一 205 
generational write barrier (分 代 间 写 屏 障 )，205 
partitioning (分 区 )，109 
free, 14 
Free pointer (空闲 指针 )，87 


Free-list allocation (空闲 链表 分 配 )，87 一 93, 
102, 105, 126, 137, 151, 299 
balanced tree (平衡 树 )，92 
best-fit (最 佳 适应 )，91 
allocate, 91 
Cartesian tree (Cartesian 树 )，92 
allocate, 92 
circular first-fit ( 环 状 首次 适应 )， 参 见 next-fit 
(循环 首次 适应 ) 
combining multiple scheme (多 种 策略 的 结合 ), 
96 ~ 97 
first-fit (首次 适应 )，89 ~ 90, 151, 153 
allocate, 89 
characteristics of (特征 )，90 
locality (局 部 性 )，54 
multiple list (多 链表 )，93 
next-fit (下 次 适应 )，90 ~ 91, 153 
allocate, 91 
cache behaviour (高 速 缓存 相关 行为 )，90 
drawbacks of (缺陷 )，90 
space overhead (空间 开销 )，89 
speeding up (加 速 )，92 ~ 93 
splay tree (splay 树 )，92 
splitting cell (内 存单 元 分 裂 )，89 一 90 
Fromspace (来 源 空 间 )，43 
Fromspace invariant (来 源 空间 不 变 式 )， 人 参见 
Concurrent copying and compaction ( 并 
发 复制 与 整理 )，fromspaceand tospace 
invariant (来 源 空间 与 目标 空间 不 变 式 ) 
Functional language (KGR A), 73, 115, 161, 
190， 也 可 参见 Erlang, Haskell, ML 
lazy (懒惰 )，66，125，132 
pure (4), 66 
Fundamental algorithm for garbage collection ( 基 


础 垃圾 回收 算法 )，17 
G 


Garbage (垃圾 )，14 
Garbage collection (垃圾 回收 ) 
abstract algorithm (抽象 算法 )，81 一 85， 也 可 
& JL Abstract specific collection algorithm 
(抽象 特定 回收 算法 ) 
advantage (优势 )，4 
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chaotic nature (复杂 性 )，11 
comparing algorithm (算法 比较 )，5 一 9 
correctness (正确 性 )，6 
criticism (批评 )，4 
defined (定义 )，3-5 
experimental methodology (实验 方法 )，10 
importance (重要 性 )，3 
memory leak (内 存 泄露 )，4 
optimisations for specific language (针对 特定 语 
言 的 优化 )，8 
partitioning the heap ( 堆 划 分 )， 参 见 Partitioned 
collection (分 区 回收 ) 
performance (性 能 )，9 
portability (可 移植 性 )，9 
safety issue (安全 性 问题 )，6，309，313，344 
scalability (可 扩展 性 )，9 
space overhead (空间 开销 )，8 
tasks of (任务 )，17 
unified theory (统一 定律 )，80 一 85 
Garbage collection of code( 针 对 代码 的 垃圾 回收 )， 
190 
Garbage-First collector ( Garbage-First 回收 器 )， 
参见 Generational collection (分 代 回 收 ) 
GC-check point (回收 检查 点 )，188 一 189 
GC-point (回收 点 )，179 ~ 180, 187 ~ 189, 
279, 355, 356, 358, 378, 394, 400, 
402, 403, 405, 407 
GC-safe point (回收 安全 点 )， 参 见 
收 点 ) 
generateWork, 278, 281, 283, 287, 288, 
290 
Generational collection (4) {€ EI We), 103, 107, 
109, 111 ~ 135, 146, 154, 157, 158, 
171, 191, 192, 296, 322, th my B Ul 
Age-basedcollection (基于 年 龄 的 回收 ) 
abstract (iH 象 )， 参 W Abstract generational 
collection (抽象 分 代 回 收 ) 
age recording (年 龄 纪录 )，116 ~ 121 
aging space (衰老 空间 )，116 ~ 120 
high water mark( 高 水 位 标记 )，120 
in header word ( 头 部 字 )，118 
Appel-style ( Appel st )，121 ~ 122, 126, 
127, 144, 208, 209 
Beltway (#3), 130, 131 


GC-point ( 回 


defining (定义 )， 

Beltway ( 带 式 )，130，131 

bucket ( 桶 )，114 

bucket brigade system (〈 桶 组 系统 )，118 ~ 120 

card marking and scanning ( 卡 标记 与 扫描 )， 参 
JL Card table (FÆ) 

Eden( 新 生 区 )， 参 见 generation( 分 代 ),young( 年 
轻 ); nursery (新 生 区 ) 

full heap collection ( 整 堆 回 收 )，115，121 ~ 123, 
126 127, 133 

Garbage-First collector ( Garbage-First 回收 器 )， 
151 

generation (分 代 )，111 

old (年 老 )，126，145 
young (年 轻 )，106，111，119，125，126， 
133, 145 
generational hypothesis (分 代 假 说 )，113 ~ 114 
strong ( 强 )，114 
weak ( $ ), 106, 111, 113, 121, 130, 
370 

heap layout( 堆 布局 )，114 ~ 117 

inter-generational pointer (分 代 间 指针 )， 参 见 
Pointer (指针 ), inter-generational (分 代 间 ) 

large object space (大 对 象 空间 )，114 

long-lived data (长 寿 数 据 )，41，132 

major collection ( 主 回收 )， 人 参见 full heap collection 
( 整 堆 回 收 ) 

Mature Object Space (成 熟 对 象 空间 )， 参 见 
Mature Object Space collector (成 熟 对 象 
空间 回收 器 ) 

measuring time (测量 时 间 )，113 

minor collection (次 级 回收 )，112，113，115， 
116; 119, 120; 122,- 123 

multiple generation (多 分 代 )，115 ~ 116 

nepotism (JÆ), 113, 114 

nursery collection (#f Æ X [Al We), 112, 121, 
126, 127, 133, 141, 146, 157 

pretenuring ( 预 分 配 )，110，132 

promoting (提升 ), 110, 111, 112 ~ 117, 121, 
127，130，132 一 134 

en masse (集体 )，116，122 
feedback (反馈 )，123 

read barrier( 读 屏障 )， 参 见 Read barrier( 读 屏障 ) 

reference counting( 引 用 计数 )， 参 见 Concurrent 
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reference counting (并 发 引用 计数 )，age- 
oriented (面向 年 龄 ) 

remembered set (记忆 和 集 )， 参 见 Remembered 
set (记忆 和 集 ) 

sequential store buffer (顺序 存储 缓冲 区 )， 参 
见 Remembered set (ic IZ #2), Sequential 
store buffer (顺序 存储 缓冲 区 ) 

space overhead (空间 开销 ), 119, 121, 122, 
126 ~ 127, 133 

step (BT ), 114, 118, 119, 128, 132, 134, 
296 

survival rate (存活 率 )， 参 见 Survival rate (4 
活 率 ) 

survivor space (存活 对 象 空间 )，119 ~ 121 

tenuring (提升 )，111 

threatening boundary scheme (危险 边界 策略 )， 
123 

throughput (吞吐 量 )，111 

ulterior reference counting ( 超 引 用 计数 )， 参 见 
Ulterior reference counting ( 超 引 用 计数 ) 

write barrier ( 写 屏 障 )， 参 见 Write barrier ( 写 
屏障 ) 

Generational hypothesis (分 代 假 说 )， 参 见 
Generational collection (分 ft 回 W), 
generational hypothesis (分 代 假 说 ) 

Granule (内 存 颗 粒 )，11 

Grey (灰色 )， 参 见 Tricolour abstraction (三 色 抽 
象 ) 

Grey mutator (灰色 赋值 器 )， 参 见 Tricolour 
abstraction (三 色 抽 象 ), mutator colour (H 
值 器 颜色 ) 

Grey packet (灰色 工作 包 )， 参 见 Marking (标记 )， 
parallel (并 行 )，grey packet (灰色 工作 包 ) 

Grey protected (灰色 保护 )， 参 见 Object (对 象 )， 
grey protected (灰色 保护 ) 


H 


Handle (句柄 )，1，104，184，185 
advantage (优势 )，1 
Happens-before( 先 于 关系 )， 参 见 Concurrency( 并 
#), happens-before ( 先 于 关系 ) 
Hash consing( 哈 希 构 造 )， 参 见 Allocation( 分 配 )， 
hash consing ( 哈 希 构造 ) 
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Haskell, 8, 113, 118, 125, 161, 162, 165, 
170, 171, 228, 292, 296, 341, HAs 
见 Functional language (函数 式 语 言 ) 
Heap layout ( 堆 布 局 )，203 一 205， 也 可 参见 
Virtual memory technique (虚拟 内 存 技术 ) 
specific collection algorithm (特定 回收 算法 ) 
Heap node( 堆 节点 )，12 
Heap parsing ( HE 解 析 )，20，166，168，170， 
182, +t AJ B W Allocation (4} Ad), heap 
parsability ( 堆 可 解析 性 ) 
Heaplet ( 子 堆 )， 参 见 Thread-local heap (线程 本 
HHE) 
Heap (Œ), 11 
block-structured ( 4k 结 #4 ), 22, 31, 122, 
152, 166 ~ 168, 183, 294 ~ 297 
relocating (迁移 )，205 
size (大 小 )，208 ~ 210 
Hierarchical decomposition (层次 分 解 )，51 ~ 53, 
55, 296, 297 
Hot and cold ( 热 与 冷 ) 
field ( 域 )，49，52 
object (对 象 )，53 
HotSpot collector ( HotSpot El 收 器 )，41，107， 
108, 119, 150, 165, 201 
Ergonomics, 123 
Hybrid copying, reference-counting (混合 复制 、 
引用 计数 回收 )， 参 见 Ulterior reference 
counting ( 超 引 用 计数 ) 
Hybrid mark-sweep, copying (混合 标记 一 清扫 、 
复制 ), 149 ~ 156， 也 可 参见 Copying ( 复 
制 )，mostly-copying collection (主体 复制 
式 回 收 ); Immix; Mark-Copy (标记 一 复制 ) 
Garbage-First collector ( Garbage-First 回收 器 )， 
150 =~ 151 
incremental incrementally compacting collector 
(渐进 式 增 量 整理 回收 器 )，150 
Hybrid reference counting (混合 引用 计数 ), mark- 
sweep (HRE — WH), 366, 370 
Hyperthreading( 超 线程 )， 参 见 Multithreading (多 
线程 )，simultaneous (同时 ) 


IBM, 151 
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Immix, 152 ~ 154, 413 
allocate, 153 
Immortal data (永生 数据 )，41 
Implementation (EI), difficulty (困难 )，79 一 80 
incNursery, 136 
Incremental collection (34 Ht IAI), 7, 139, 275, 
307 ~ 308 
Baker’s algorithm ( Baker #34), & Jil Baker’s 
algorithm (Baker 算法 ) 
incremental incrementally compacting collector 
(渐进 式 增 量 整理 回收 器 )，150 
treadmill collector ( 转 轮 回收 器 )， 参 见 
Treadmill collector ( 转 轮 回收 器 ) 
Incremental compaction ( 增 量 整理 )， 参 见 Hybrid 
mark-sweep, copying (混合 标记 -清扫 、 
复制 ) 
incrementNew 
concurrent reference counting (并 发 引用 计数 ) 
coalesced (合并 )，369 
sliding view (滑动 视图 )，369，372 
reference counting( 引 用 计数 ),coalesced( 合 并 )， 
65 
Intel processor (Intel 处 理 器 )，298，410 
Interesting pointer (回收 相关 指针 )， 参 见 Pointer 
(指针 )，interesting (回收 相关 ) 
Interior pointer (内 部 指针 )， 参 见 Pointer (指针 )， 
interior (内 部 ) 


J9, 296 
Jamaica (Java 虚拟 机 )，282，412，415 
Java, 106, 113, 124, 125, 145, 151, 152, 
162 ~ 165, 169 ~ 172, 179, 185, 190, 
201, 209 215, 206, 218, 219, 223; 
224, 234, 282, 296, 330, 341, 346, 
356, 360, 391, 405, 406, 412 
pointer equality (指针 相等 )，347 
Real-Time Specification for (实时 规范 )，148 
volatile field (volatile 域 )，346，351，406 
Java Native Interface (Java 原生 接口 )，104，394 
Java virtual machine ( Java 虚拟 机 )，116，138， 也 
可 参见 ExactVM; HotSpot; J9; Jamaica; 
Jikes RVM; JRockit 
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switching collector (切换 回收 器 )，6 

JavaScript，228 

Jikes RVM (Jiker 虚拟 机 )，26，116，341 

Jonkers’s threaded compactor ( Jonker 引线 整理 回 
收 器 )， 参 见 Mark-compact (标记 一 整理 )， 
Jonkers 

JRockit，138 

JVM, ÆJ Java virtual machine (Java 虚拟 机 ) 


L 


Large address space (大 地 址 空间 )，128，129 
Large object space (大 对 象 空 间 )，94，104，110， 
137 ~ 140,152， 也 可 参见 Object (对 象 )， 
large( 大 ); Treadmill collector( 转 轮回 收回) 
generational collection (分 代 回 收 )，114，124 
Large object (大 对 象 )， 参 见 Object (对 象 )，large 
(大 ) 
Lazy sweeping (懒惰 清扫 )， 参 见 Sweeping ( 清 
44), lazy (it) 
lazySweep, 25 
Lifetime of object (对 象 生命 周期 )，105，114，121， 
132, 143, 147, 也 可 Æ 见 Generational 
collection (分 代 回 收 )，measuring time (W 
量 时 间 ) 
Linearisability (线性 化 )，253 
Linearisation point (线性 化 点 )，254 一 256 
Lisp, $0, 585 193), TIS 124, 162, 164; 
169, 171, 190, 220, 226, 323, 384, 
也 可 参见 Scheme (策略 ) 
Lisp 2 algorithm (Lisp 2 算 法 )， 
compact (标记 一 整理 ) 
Livelock ( 活 锁 )，2， 参 见 Concurrency (并 发 )， 
livelock ( 活 锁 ) 
Liveness (存活 性 )，3，13，334 
concurrent collector (并 发 回收 器 )， 参 见 Concurrent 
collection (并 发 回收 ),collector liveness ( E] 
收 器 存活 性 ) 
Load balancing (负载 均衡 )，277 ~ 278, 279, 
280, 282, 285, 288, 294, 298 一 300, 
303 ~ 305 
dynamic (a2), 277 
over-partitioning( 细 粒度 划分 )，278 
static (静态 )，277 


参 见 Mark- 
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Load-linked / store-conditionally (链接 加 载 / 条 件 
存储 ), 238 ~ 239, 245, 289, 350, 378, 
也 可 参见 Concurrency (Ff £), hardware 
primitive (硬件 原 语 ): LoadLinked; Store 
Conditionally 

LoadLinked, 238, 239, 257, 260, 264 ~ 266, 
268, 350, 也 可 Æ 见 Concurrency (并 
发 )，hardware primitive (硬件 原 语 )， 
LoadLinked 

Local allocation buffer (本 地 分 配 缓冲 区 )， 参 见 
Allocation (分 配 ), local allocation buffer 
(本 地 分 配 缓冲 区 ) 

Locality (局 部 HE), 78, 279, 296, 297, 304, 
也 可 参见 Cache behaviour (高 速 缓存 相关 
行为 )，Paging behaviour ( 换 页 行为 ) 

after copying (复制 之 后 )，46 

copying (复制 )，46 

free-list allocation (空闲 链表 分 配 )，54 
lazy sweeping (懒惰 清扫 )，26 
mark-compact (标记 一 整理 )，32，41 
marking (标记 ),，21 一 22 

parallel copying (并 行 复 制 )，293 
sequential allocation (顺序 分 配 )，54 
Two-Finger algorithm ( 双 指 针 算法 )，34 

Lock-free algorithm (无 锁 算法 ), 244, 249, 251， 
255 ~- 257, 260, 261, 263 ~ 268, 271, 
280, 342 ~ 345, 374, 406, 410, th AJ 
参见 Concurrency (Ff), progress guarantee 
(前 进 保障 )，lock-free (无 锁 ) 

Lock ( 锁 )，232，254 

coarse-grained locking( 粗 粒度 锁 )，254 
counting lock (计数 锁 )，253 ，254 
exchangeLock, 233 
fine-grained locking (4 #7 RE #i), 254, 256, 
258, 259, 261 ~ 263 

lock coupling (#UKZi), 255 
optimistic locking (乐观 锁 )，255 
spin ( 自 旋 )，232 

AtomicExchange, 233 

TestAndSet, 234 
test then test then set (检测 、 检 测 、 设 置 )，240 
test then test-and-set (检测 — 检测 并 设置 )，240 
test-and-set (检测 并 设置 )，232，234 
test-and-test-and-set (检测 — 检测 -设置 )，233 


testAndSetLock, 234 
testAndTestAndSetExchangeLock, 233 
Logic programming language (逻辑 程序 语言 )，9， 
299 
Lost object problem( 对 象 丢失 问题 )， 参 见 Concurrent 
collection (并 发 回收 )，lost object problem 
(对 象 丢失 问题 ) 
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Mach operating system (Mach 操作 系统 )，209 
Machine learning (机 器 学 习 )，80 
Major collection ( 主 [=] 4), & 见 Generational 
collection (分 代 回 收 )，full heap collection 
( 整 堆 回收 ) 
Managed language (托管 语言 )，1 
Managed run-time system (托管 运行 时 系统 )，1 
Managing machine code (托管 机 器 代码 )，105 
Many-core processor ( 众 核 处 理 器 )，230 
mark 
basic (基本 )，24 
basic mark-sweep (基本 标记 一 清扫 )，19 
marking edge (标记 边 )，28 
Mark-compact (标记 一 整理 ), 17, 31 ~ 42, 79, 
111, 126, 127, 184， 也 可 参见 Hybrid ( 混 
A); Mark-sweep (标记 一 清扫 ) 
arbitrary order (任意 顺序 )，31 
collect, 32 
compact, 33, 35, 37, 40 
compact phase (整理 阶段 )，31 
compaction (整理 ) 
cache behaviour (高 速 缓存 相关 行为 )，38 
one-pass( 单 次 遍历 )，38 
three-pass (三 次 遍历 )，34 
two-pass (两 次 遍历 )，32，37 
Compressor, 38 ~ 41, 127, 302 
computeLocations, 35 
Jonkers, 36 ~ 38, 127 
limitation (限制 )，42 
linearising compaction (线性 整理 )，31 
Lisp 2 algorithm (Lisp 2 算法 )，32，34 ~ 36 
locality (局 部 性 )，32 
mark phase (标记 阶段 )，31 
parallel compactor (并 行 整理 器 )，36 
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relocate, 33, 35 
sliding compaction (滑动 整理 )，31 
threaded compaction (引线 整理 )，32，36 一 38 
parallel (并 行 )，299 
threading pointer (引线 指针 )，36 
throughput (吞吐 量 )，34，41 
Two-Finger algorithm ( 双 指 针 算 法 )，32 ~ 34, 
36，184 
updateReferences, 33, 35 
Mark-compact (标记 一 整理 )，time overhead (时 
间 开 销 )，32 
Mark-Copy (标记 一 复制 )，154 一 156 
space overhead (空间 开销 )，154 
Mark-sweep〔 标 记 一 清扫 ), 17 ~ 30, 122, 126, 
137,146， 也 可 参见 Mark-compact (标记 一 
整理 ); Marking (标记 ); Sweeping (清扫 ) 
asymptotic complexity (渐进 复杂 度 )，24 
basic algorithm (基本 算法 )，18 
concurrent (并 发 ), 296， 参 见 Concurrent mark- 
sweep (并 发 标记 -清扫 ) 
heap layout ( 堆 布局 )，20 
lazy sweeping (懒惰 清扫 )， 参 见 Sweeping ( 清 
扫 )，lazy (tit) 
mark phase (标记 阶段 )，18，19 
mutator overhead (赋值 器 开销 )，29 
space overhead (空间 开销 )，29，40，74 
sweep, 20 
sweep phase (jf br Ee), 18, 20 
termination of basic algorithm (基本 算法 的 结 
R), 19 
throughput (吞吐 量 )，29 
time overhead (时 间 开 销 )，24 
tricolour marking (三 色 标 记 )，20 
Mark/cons ratio (标记 /构造 率 ),，6， 54, 111, 
129，144 
copying and mark-sweep compared (复制 式 回收 
与 标记 一 清扫 回收 之 间 的 比较 )，55 
markFromRoots, basic mark-sweep (基本 标记 - 
清扫 )，19 
Marking (标记 )，153 
asymptotic complexity (渐进 复杂 度 )，276 
atomicity (原子 性 )，22 
bitmap (位 图 )，22 一 24，151，299 
cache behaviour (高 速 缓存 相关 行为 )，21 ~ 22, 
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27 ~29 
concurrent (并 发 )， 参 见 Concurrent mark- 
sweep (并 发 标记 - 清扫) 
incremental ( 增 量 )，155 
mark, 28 
mark stack (标记 栈 )，23，28 
overflow (溢出 )，24 
marking edge (标记 边 )，28 一 29 
order (顺序 ， 深 度 优先 或 广度 优先 )，27 
paging( 换 页 )，23 
parallel (并 行 )，279 一 289 
Barabash 等 ， 参 见 grey packets( 灰 色 工 作 包 ) 
channel (通道 )，288 一 289 
Endo “, 280, 281, 283, 289 
Flood “#, 278, 280, 282 ~ 284, 288, 289 
grey packet (灰色 工作 包 )，282，284 ~ 288, 
296 
Ossia 等 ， 参 见 grey packet (灰色 工作 包 ) 
Siebert [2008]，276 
Siebert [2010], 280, 282 
termination (结束 )， 参 见 Concurrent collection 
(并 发 回收 )，termination (结束 ) 
Wu and Li， 参 见 using channel (使 用 通道 ) 
prefetching ( 预 取 )， 参 见 Prefetching(〈 预 取 )， 
marking (标记 ) 
time overhead (时 间 开 销 )，27 
work list (工作 列表 )，19，28，279，280 
Marmot，138 
Mature Object Space collector (成 熟 对 象 空间 回收 
器 )，109，130，140 ~ 143, 151, 194, 
208 
time overhead (时 间 开 销 )，143 
Measurement bias (测量 偏差 )，10 
Memory affinity (内 存 亲 和 性 )，293 
Memory consistency (内 存 一 致 性 )， 参 见 
Concurrency (并 发 )，memory consistency 
(内 存 一 致 性 ) 
Memory fence (内存 屏 障 )，243， 参 见 Concurrency 
(并 发 )，memory fence (内 存 屏 障 ) 
Memory leak (内 存 泄 露 )，2 
Mercury, 171 
Metronome collector (Metronome 回收 器 ),391 ~ 
399, 402, 407, 413， 也 可 参见 Real-time 
collection (实时 回收 )，Tax-and-Spend ( 税 


428 


壳 žl 





收 与 开支 ) 
compaction (整理 )，404 一 405 
generational collection (分 代 回 收 )，399 
handshake (握手 )，394 
mutator utilisation (赋值 器 使 用 率 )，391 一 393, 
395 
pause time (停顿 时 间 )，391，393，394 
read barrier( 读 屏障 )，393 
robustness( 鲁 棒 性 )，399 
root scanning( 根 扫描 )，394 
scheduling (调度 )，394 
sensitivity (敏感 性 )，397 
syncopation, 399 
time and space analysis (时 间 与 空间 分 析 )， 
395 一 399 
write barrier ( 写 屏 障 )，397 
Minimum mutator utilisation( 最 小 赋值 器 使 用 率 )， 
7, 377; 384, 391 ~ 393, 396, 398 ~ 
400, 409 
Minor collection (次 级 回收 )， 参 见 Generational 
collection (分 代 回 收 ),minor collection (次 
级 回收 ) 
MIPS processor (MIPS 处 理 器 )，181，194 
ML, 8, 106, 113, 121, 124, 125, 146, 148, 
162, 165, 170, 171, 201, 208, 209, 
228, 329, 330, 342, 384, th H B W 
Functional language (函数 式 语 言 ) 
MMTk，26，116，195，196， 也 可 参见 JikesRVM 
MMU， 参 见 Minimum mutator utilisation (最 小 
赋值 器 使 用 率 ) 
Modula—2+, 340, 366 
Modula—3, 162, 179, 184, 340 
Moon’s algorithm (Moon 算法 )， 参 见 Copying ( 复 
fil), Moon’salgorithm (Moon 算法 ) 
Mortality of object (对 象 死亡 率 )，105 
Mostly-concurrent collection (主体 并 发 回收 )， 参 
见 Baker’s algorithm (Baker 算法 ) 
Mostly-copying collection (主体 复制 式 回收 )， 参 
JL Copying (复制 ),mostly-copying collection 
(主体 复制 式 回收 ), Concurrent copying and 
compaction (并 发 复制 与 整理 )，mostly- 
copying collection (主体 复制 式 回 收 ) 
Motorola MC68000, 169 
Moving object (移动 对 象 )，55 


Multi-tasking virtual machine (多 任务 虚拟 机 )， 
107 

Multi-version copying (多 版 本 复制 )， 参 见 
Concurrent copying and compaction (并 发 
复制 与 整理 )，mnulti-version copying (多 版 
本 复制 ) 

Multiprocessor (多 处 理 器 )，230 

chip (WE), 230 

many-core (fk4%), 230 
multicore (44%), 230 
symmetric (对 称 )，230 

Multiprogramming (多 程序 )，230 

Multiset (多 集合 )，definition and notation (定义 
与 记 法 )，15 

Multithreading (多 线程 )，230 

simultaneous (同时 )，230 
Mutator (赋值 器 ) 12 
performance (FE fE), Æ W Copying (复制 )， 
improves mutator performance (提升 赋值 
器 性 能 ) 
thread (线程 )， 参 见 Mutator thread (赋值 器 
线程 ) 

Mutator colour (赋值 器 颜色 ， 黑 色 或 灰色 )， 参 
见 Tricolour abstract (三 色 抽 象 )，mnutator 
colour (赋值 器 颜色 ) 

Mutator overhead (赋值 器 开销 )， 参 见 specific 
collection algorithm (特定 回收 算法 ) 
Mutator suspension (赋值 器 挂 起 )， 参 见 GC-point 

(回收 点 ) 

Mutator thread (赋值 器 线程 )，12，15 

Mutator utilization (赋值 器 使 用 率 )，7，385， 
391 一 393, 395， 也 可 参见 Bounded 
mutator utilization (界限 赋值 器 使 用 率 )， 
Minimum mutator utilisation (最 小 赋值 器 
使 用 率 ) 

Tax-and-Spend (税收 与 开支 )，400 

Mutual exclusion ( 互 斥 )， 参 见 Concurrency (并 

发 )，mutual exclusion ( 互 斥 ) 


N 


Nepotism( 庇 护 )， 参 见 Generational collection (分 
代 回 收 )，nepotism (庇护 ) 
.NET, 218, 220 
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New 
basic mark-sweep (基本 标记 一 清扫 )，18 
concurrent mark-sweep( 并 发 标记 -清扫 )，324 
concurrent reference counting (并 发 引用 计数 ) 
age-oriented (面向 年 龄 )，372 
sliding view (滑动 视图 )，372 
generational (分 代 )，abstract (抽象 )，136 
incremental tracing ( 增 量 追踪 )，333 
real-time collection (实时 回收 ) 
replicating (副本 复制 )，378，381，384 
slack-based (基于 间隙 )，389 
reference counting (引用 计数 ),abstract (抽象 )， 
83 
tracing (追踪 )，abstract (抽象 )，82 
Next-fit (循环 首次 适应 )， 参 见 Free-list 
allocation (空闲 链表 分 配 )，next-fit (循环 
首次 适应 ) 

NMT， 参 见 Not-Marked-Through (尚未 标记 过 ) 
Non-uniform memory access ( 非 一 致 内 存 访问 )， 
230，293 一 294，298，344，345 
Not-Marked-Through (尚未 标记 过 )，355 ~ 360 

Notation ( 记 法 )，12 ~ 16, 245 ~ 246 

Nursery (žr Æ 4R), Æ J Generational collection 
(4 4R E i), generation (4) 4R), young 
(年 轻 ) 


O 


Object inlining (对 象 内 联 )， 参 见 Scalar replacement 
( 纯 值 替换 ) 
Object layout (对 象 布局 )，bidirectional (双向 ), 
170 2 
Object table (XJK), 184 ~ 185 
Object-oriented language (面向 对 象 语 言 )，169 
per-class GC method (每 类 型 回收 方法 )，170， 
341 
Object (对 象 )，12 
boot image (引导 映像 )，124，126 
cold ( 冷 )， 参 见 Hot and cold ( 热 与 冷 ), objects 
(对 象 ) 
filler (填充 )，99 ~ 100 
grey (灰色 )，43 
grey protected (灰色 保护 )，312 
hot ( 热 )， 参 见 Hot and cold ( 热 与 冷 )，object 


(对 象 ) 
immortal (永生 ),110, 124, 126, 132 ~ 134 
immutable (AFJ4E), 108, 146 
Java Reference, 参见 Reference (引用 ), weak 
( 弱 ) 
large (XK ), 56, 114, 138, 151, 152, 201, 
也 可 参见 Large object space (大 对 象 空间 ) 
moving (移动 )，139 一 140 
pointer-free (无 指针 )，140 
pointer-free (无 指针 )，140 
popular ( 富 引 用 )，143 ，156 
type of (类 型 )，169 ~ 171 

Oblet ( 子 对 象 )，385，404，413 ，414 

Obstruction-free algorithm (无 障碍 算法 )，243， 
255， 也 可 参见 Concurrency (并 发 ),progress 
guarantee (前进 保障 ), obstruction-free (无 
障碍 ) 

Old generation (年 老 4R), Æ Jil Generational 
collection (分 代 回 收 )，generation (分 代 )， 
old (年 老 ) 

Older-first collection (中 年 代 优先 回收 ),127 ~ 129, 
131， 也 可 参见 Age-based collection (基于 
年 龄 的 回收 ) 

Beltway〈 带 式 )，130，131 
deferred older-first (延迟 中 年 优先 )，128 一 129 
renewal older-first (更 新 中 年 优先 )，128 

On-stack replacement ( 栈 上 替换 )，190 

On-the-fly collection( 即时 回收 )， 人 参见 Concurrent 
collection (并 发 回收 ),on-the-fly and speci- 
ficconcurrent collection algorithm (即时 回 
收 与 特定 并 发 回收 算法 ) 

Online sampling (在 线 采 样 )，50，132 

Opportunistic collector ( Opportunistic [E] 收 器 )， 
120, 121 

Over-partitioning (4H #2 BE R 4+), B WW Load 
balancing (负载 均衡 ),over-partitioning (4M 
粒度 划分 ) 

Ownership of object (对 象 所 有 权 )，3 


P 
Page fault ( 缺 页 异常 )， 人 参见 Paging behaviour ( 换 


页 行为 ) 
Page (页 )，12 
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Paging behaviour ( 换 页 行为 )， 参 见 Book marking 
collector (书签 回收 器 )，Copying (复制 )， 
paging behaviour ( 换 页 行 为 )，Marking 
(标记 )，paging ( 换 页 ) 

Parallel collection (Jf fF Fl), 7, 244, 275 一 
306, 308 

correctness (正确 性 )，278 
grey packet (灰色 工作 包 )， 参 见 Marking ( 标 
记 )，parallel (并 行 )，Grey packet (灰色 工 


作 包 ) 
load balancing (负载 均衡 )， 参 见 Load balancing 
(负载 均衡 ) 


memory-centric( 以 内 存 为 中 心 )，279 

parallel sweeping( 并 行 清 扫 )， 参 见 Sweeping( 清 
扫 )，parallel (并 行 ) 

parallelisation concern (并 行 化 的 注意 事项 )， 
276: ~ 277 

processor-centric (以 处 理 器 为 中 心 )，279 

synchronisation (同步 )，278 ~ 280, 305 

termination (结束 )，279，283 ~ 284, 289, 300 

Partitioned collection (分 区 回收 )，103 ~ 110 

non-age-based scheme ( 非 基 于 年 龄 的 策略 )， 
137 ~ 159， 也 可 参见 Conectivity-based 
collection (基于 相关 性 的 回收 )，Hybrid 
mark-sweep, copying (混合 标记 -清扫 、 
复制 )，Large object space (大 对 象 空间 )， 
Mature Object Space collection (成 熟 对 象 
空间 回收 )，Thread-local collection (线程 
本 地 分 配 ) 

partitioning approach (分 区 策略 )，108 一 109 

partitioning by age (根据 年 龄 进行 分 区 )，109 

partitioning by availability (根据 可 用 性 进行 分 
区 )，107 ~ 108 

partitioning by kind (根据 类 别 进行 分 区 )，105 

cache behaviour (高 速 缓存 相关 行为 )，105 

partitioning by mobility (根据 移动 性 进行 分 区 )， 
104 

partitioning by mutability (根据 易 变 性 进行 分 
区 )，108 

partitioning by size (根据 大 小 进行 分 区 )，104 

partitioning by thread (根据 线程 进行 分 区 )， 


107 
partitioning for locality (为 局 部 性 进行 分 区 )， 
106 ~ 107 
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partitioning for space (为 空间 进行 分 区 ), 104 一 
105 
partitioning for yield (为 效益 进行 分 区 ),105 一 
106 
partitioning to reduce pause time (为 降低 停顿 
时 间 进 行 分 区 )，106 
reasons to partition (分 区 的 动因 )，103 一 108 
reclaiming whole region (回收 整个 区 域 )，106， 
148 
space overhead (空间 开销 )，105 
when to partition( 何 时 进行 分 区 )，109 一 110 
Pause time (停顿 时 间 )，7，78，140，144，156， 
275, 335, 342, 375, 384, 391, 393, 
394, 415 
generational collection (分 代 回 收 )，111，123， 
133 
sweeping (清扫 )，24 
Pauseless collector ( Pauseless 回 收 器 )， 参 见 
Concurrent copying and compaction (并 发 
复制 与 整理 ),Pauseless collector (Pauseless 
回收 器 ) 
performWork, 278, 281, 283, 287, 288, 290 
perl, 58 
参 见 
Concurrency (并 发 )，Peterson's algorithm 
(Peterson 算法 ) 
Pinning object (WETE RIX), 104, 109, 183, 
185 ~ 186 
Pointer (指针 ) 
ambiguous (模糊 )，166 
dangling (其 挂 )，2，148 
dangling (Æ 挂 )，garbage collection as preven 
tion for (垃圾 回收 可 以 避免 )，3 
derived (派生 )，173，181，183 一 184，186 
direction (直接 ),，125 ~ 126, 128, 144 ~ 146 
external (外 部 )，185 ~ 186 
fat (AE), 2 
finding (#4), 55, 166 ~ 184 
conservative (保守 式 )，166 ~ 168 
in code (代码 中 )，181 ~ 182 
in global root (全 局 根 中 )，171 
in object (对 象 中 )，169 ~ 171 
in register (寄存 器 中 )，173 一 179 
in stack ( 栈 中 )，171 ~ 181 


Peterson’s algorithm ( Peterson 算 法 )， 
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stack map (FRET), 172 ~ 173, 175, 176, 
178, 179 
tag (R4), 168-169 
hazard (冒险 )，374 
inter-generational (分 代 间 )，112， 113, 115, 
123 ~ 126, 134, 154, 191 
interesting (回收 相关 )，124，125，128，130， 
132; 151,. 19] ~ 193 
interior (AMS), 32, 34, 38, 166, 168, 173, 
181, 182 ~ 183, 184, 186 
shared (共享 )，59 
smart (智能 )，3，73 
reference counting (引用 计数 )，58，59 
strong ( 强 )， 参 见 Reference (引用 ),strong ( 强 ) 
tidy (整齐 )，183 
unique (ME—), 58, 73 
updates of (更 新 )，124 ~ 125, 132 
weak (35), ÆJ Reference (引用 )，weak (55) 
Pointers, 13 
Poor Richard’s Memory Manager (Poor Richard 内 
存 管 理 器 )，210 
pop, 257, 268 
PowerPC architecture (PowerPC 4244), 262, 298, 
407 
Precision of concurrent collection (并 发 回收 的 精 
BE), 313, 334 一 335 
Prefetching (HX), 24, 78 
allocation (4} fd), 165, 166 
compaction (整理 )，36 
copying (复制 )，51，53 
marking (标记 ),21, 27 一 29 
reference counting( 引 用 计数 ),coalesced( 合 并 )， 
64 
Two-Finger algorithm ( 双 指 针 算 法 )，34 
Pretenuring ( 预 分 配 ), 参见 Generational collection 
(分 代 回 收 )，pretenuring( 预 分 配 ) 
Primitives ( 原 语 )， 参 见 Concurrency (并 发 )， 
hardware primitive (并 发 原 语 ) 
Processor affinity scheduling (处 理 器 亲 和 性 调 
度 )，293 
Processor (处 理 器 )，229 
Profiling (分 析 )，50，52 
Promptness (及 时 性 )，6，79，132，313 
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finalisation (444), 217 
generational collection (分 代 回 收 )，111 
reference counting (引用 计数 )，73 
Pseudo-code for algorithm (算法 伪 代 码 )，14 
Purple (紫色 )，326，327 
push, 257, 268 
python, 58, 228 


Q 


Queue (队列 )， 参 见 Concurrent data structure (并 
发 数据 结构 )，queue (队列 ) 
R 

Reachability (可 达 性 )，13，18 
a-reachable (a 可 达 )，223 
finaliser-reachable (终结 可 达 )，213，223 
phantom-reachable ( 虚 可 达 )，224 
softly-reachable ( 软 可 达 )，223 
strongly-reachable (s# AJGA), 221 
weakly-reachable (§§ "Ji ), 221 

Read, 15 
Baker’s algorithm (Baker 算法 )，338，339 
Brooks’s indirection barrier (Brooks 间接 屏障 )， 


341 
concurrent reference counting (并 发 引用 计数 )， 
364, 365 


Pauseless collector (Pauseless 回收 器 )，356 
real-time collection (实时 回收 ) 
Chicken，410 
Clover，411 
incremental replicating ( 增 量 副 本 复制 )，405 
replicating (副本 复制 )，378，381 
slack-based (FEWR), 389 
Staccato, 409 
Read barrier (PERR), 14, 53, 110, 147, 170, 
191 ~ 192 
Baker’s algorithm (Baker #7), 338 
concurrent collection (并 发 回收 ), 参见 Concurrent 
collection (并 发 回收 ), read barrier ( 读 屏 障 ) 
Metronome, 393 
time overhead (时 间 开 销 )，323 
Real-time collection (实时 回收 )，245，375 一 415 
Blelloch and Cheng， 人 参见 replicating( 副 本 复制 ) 
Chicken，410，412 
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Read, 410 
Write, 410 
Clover, 410 ~ 412 
Read, 411 
Write, 411 
combined scheduling strategy (多 种 调度 策略 的 
结合 )， 参 见 Tax-and-Spend (税收 与 开支 ) 
compaction (整理 )，403 一 415 
fragmentation (碎片 化 )，403 一 415 
incremental replicating ( 增 量 副本 复制 )，405 一 
406 
Read，405 
Write, 405 
lock-free (无 锁 )， 参 见 Clover, Stopless 
Metronome， 参 见 Metronome collector ( Metro 
nome 回收 器 ) 
replicating (副本 复制 )，377 一 384， 也 可 参见 
incremental replicating ( 增 量 副 本 复制 ) 
allocate，380，382 
collect，382 
collectorOn/Off, 382, 383 
New, 378, 381, 384 
Read, 378, 381 
time and space bound (时 空 界 限 )，384 
Write，378，381 
scheduling overview (调度 策略 概述 ), 376 ~ 377 
Schism, 413 ~ 415 
slack-based (基于 间隙 )，377，386 ~ 391, 401 
collector, 388 
lazy evacuation (懒惰 计算 )，387 
New，389 
Read，389 
scheduling (调度 )，389 ~ 391 
time overhead (时 间 开 销 )，390 
Write, 389 
write barrier ( 写 屏 障 )，386 
Staccato，407 一 410 
Read，409 
Write, 409 
Stopless, 406 ~ 407, 412 
Tax-and-Spend (税收 与 开支 )，399 ~ 403 
mutator utilisation (赋值 器 使 用 率 )，400 
termination (结束 )，403 
time-based (基于 时 间 )，377， 也 可 参见 Metro 


ke ál 


nome collector (Metronome Eltak ) 
wait-free (无 等 待 )， 参见 Chicken, Staccato 
work-based (基于 工作 )，377 ~ 385, 391, th 
可 参见 replicating (副本 复制 ) 
time and space analysis (时 空 分 析 )，398 一 
399 
Real-time system (实时 系统 )，375 ~ 376 
hard and soft (f# 434K), 375 
multitasking (多 任务 )，376 
schedulability analysis (可 调度 性 分 析 )，376， 
384 
task (任务 )，376 
WCET, # Jil, worst-case execution time (最 差 
执行 时 间 ) 
worst-case execution time (最 差 执行 时 间 ),376， 
384, 385, 390, 413 
Recycler algorithm (Recycler $% 法 )，68 ~ 70, 
157 
asymptotic complexity (渐进 复杂 度 )，72 
asynchronous (异步 )，72，366 ~ 373 
synchronous (同步 )，67 ~ 72, 372 
Reference counting (5| Hit #0), 3, 17, 
75, 79, 108, 146, 157, 275 
abstract (抽象 )， 参 见 Abstract reference counting 


18, 57 ~ 


(抽象 引用 计数 ) 
advantage and disadvantage (优势 与 劣势 )，58， 
73 


buffered (缓存 )，60， 参 见 Buffered reference 
counting (缓冲 引用 计数 ) 
coalesced (合并 )，63 ~ 66, 74, 78, 82, 157 
collect, 65 
decrementOld, 65 
incrementNew, 65 
Write, 64 
concurrent (并 发 )， 参 见 Concurrent reference 
counting (并 发 引用 计数 ) 
counter overflow (计数 溢出 )，73 
cycle (#), 59, 66~ 72，74，79， 也 可 参见 
Recycler algorithm (Recycler 算法 ) 
deferred (延迟 )，60，61 ~ 66, 74, 78, 79, 
157, 366 
collect, 62 
performance (EAE), 63 
Write, 62 
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zero count table ($31 HÆ), 61, 366, 372 
finalisation (44%), 214, 216, 220 
generational (分 代 )， 参 见 Concurrent reference 

counting (并 发 引用 计数 ),age-oriented ( 面 
向 年 龄 ) 
lazy (H), 60 
limited counter field( 受 限 引 用 计数 域 )，72 一 74 
partial tracing (局 部 追踪 )，67 ~ 72 
promptness (及 时 性 )，73 
simple (简单 )，79 

Write, 58 
sliding view( 滑 动 视图 )，60 
smart pointer (智能 指针 )， 参 见 Pointer (指针 )， 

smart (智能 ) 
space overhead (空间 开销 )，72 一 74 
sticky count〈 粘 性 引用 计数 )，73 
throughput (吞吐 量 )，74 
trial deletion (试验 删除 )，67 ~ 72, 373, tE 
可 参见 Recycler algorithm (Recycler 算法 ) 
ulterior ( 超 )， 参 见 Ulterior reference counting 
( 超 引 用 计数 ) 
weak pointer algorithm ( 弱 指 针 算法 )，67 
weak reference( 弱 指针 )，224 
Reference (引用 )，12 
accessing heap allocated object (访问 堆 中 分 配 
的 对 象 )，1 
counting (计数 )， 参 见 Reference counting ( 引 
用 计数 ) 
phantom ( 虚 )，224 
soft (4k), 223, 360 
strong (3%), 221 
weak (43), 67, 169, 218, 221 ~ 228, 330, 
360 
Region inference ( X JX HE Wr), Æ JL Partitioned 
collection (分 区 El WW), reclaiming whole 
region (回收 整个 区 域 ) 
relocate, mark-compact (标记 一 整理 )，33，35 
Remembered set (记忆 集 )，113，7124-125，126， 
128, 134, 141, 143, 144, 151, 154, 
157, 191, 192, 193, 也 可 Æ W Card 
table (FÆ); Chunked list (内 存 块 链表 ) 
card table, ÆJ Card table ( 卡 表 ) 
hash table (Æ), 194 ~ 196 
overflow (Xiii), 195 ~ 197 
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sequential store buffer (顺序 存储 缓冲 区 )， 参 见 
Sequential store buffer (顺序 存储 缓冲 区 ) 
remove, 258 ~ 268, 271 
Remset (记忆 集 )， 参见 Remembered set (记忆 集 ) 
Rendezvous barrier (汇聚 屏障 )，251 ~ 253, 382 
Replicating collection (副本 复制 回收 )， 参 见 
Copying (复制 )，concurrent (并 发 )，replica 
ting (副本 复制 ) 
Resurrection of object( 对 象 复活 )， 参 见 Finalisation 
(终结 )，resurrection (复活 ) 
Root ( 根 )，12 
Roots，13 
rootsNursery, 135 
Run-time interface (运行 时 接口 )， 人 参见 run-time 
interface (运行 时 接口 ) 
managed (托管 )，1 


S 


Sampling (采样 )，52，53 
Sapphire collector ( Sapphire EI 收 器 )， 参 见 
Concurrent copying and compaction (并 发 
复制 与 整理 ) 
Scalar replacement ( 纯 值 替换 )，148 
Scalar ( 纯 值 )，12 
scan 
copying (iil), semispace (*FK), 45 
incremental tracing (Ñ JÉ BR ) (scanTracing 
Inc), 333 
scanNursery, 135 
Scavenging (fii), 43, 106 
Scheme, 121, 128, 170, TJ ÆW Lisp 
Segregated-fits allocation (分 区 适应 分 配 )，23， 
30, 41, 54, 93 ~ 95, 102, 104, 157, 
165, 299 
allocate, 95 
block-based (JE FA FPR), 95 ~ 96, 102 
cache behaviour (高 速 缓存 相关 行为 )，95 
space overhead (空间 开销 )，96 
buddy system (伙伴 系统 )，96 
splitting cell (内 存单 元 分 裂 )，96 
Self-adjusting tree ( 自 调整 树 )，92 
Semispace copying ( 半 区 复制 )， 参见 Copying ( 复 
制 )，semispace ( 半 区 ) 
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Sequence (JF ži] ), definition and notation (定义 


与 记 法 )，15 
Sequential allocation (顺序 分 配 )，31，44，54， 
5 


151 ~ 153, 157, 164, 165, 294, 301 
allocate, 88, 287 
cache behaviour (高 速 缓存 相关 行为 )，88 
locality (局 部 性 )，54 
Sequential store buffer (顺序 存储 缓冲 区 )，156， 
193, 195 ~ 196，207， 也 可 参见 Chunked 
list (内 存 块 链表 ) 
Write，195 
Sequential-fits allocation (顺序 适应 分 配 )， 人 参见 
Free-list allocation (空闲 链表 分 配 ) 
Set definition and notation (集合 定义 与 记 法 )，15 
shared, 245 
Shared pointer (共享 指针 )， 参 见 Pointer (指针 )， 
shared (共享 ) 
SITBOL, 41 
Sliding view (滑动 视图 ), 参见 Reference counting 
(引用 计数 )，coaleseced (合并 )，Concurrent 
mark-sweep (并 发 标记 -清扫 )，sliding 
view (滑动 视图 ) 
Slow path( 慢 速 路 径 )， 参 见 Fast and slow path( 快 
速 与 慢 速 路 径 ) 
Smalltalk, 50, 58, 113, 115, 168, 171, 185, 
193, 228 
Smart pointer (智能 指针 )， 参 见 Pointer (4841), 
smart (智能 ) 
Space leak (空间 泄露 )， 参 见 Memory leak (内 存 
泄露 ) 
Space overhead (空间 开销 ), 参见 specific collection 
algorithm (特定 回收 算法 ) 
Space usage (空间 使 用 率 )，78 一 79 
Space (空间 )，12，103 
SPARC architecture (SPARC 架构 )，168，197，300 
Splay tree (Splay #f), 92 
Staccato collector ( Staccato 回收 器 )， 参 见 Real- 
time collection (实时 回收 )，Staccato 
Stack allocation ( 栈 上 分 配 )，147 一 148 
Stack barrier ( 栈 屏 障 )，170，186 ~ 187, 328, 
385 
Stack frame ( 栈 帧 )，171 ~ 179, 186 一 187 


Stack map ( 栈 映射 )，188， 参 见 Pointer (4841), 

finding (查找 )，stack map ( 栈 映射 ) 
compressing (压缩 )，179 一 181 

Stacklet ( 子 栈 )，187，384 

Stack ( 栈 )， 参 见 Concurrent data structure (并 发 
数据 结构 )，stack ( 栈 ) 

Standard Template Library (标准 模板 库 )， 参 见 
C++ Standard Template Library ( C++ 标准 
模板 库 ) 

Steele, Æ W Concurrent collection (并 发 回收 )， 
insertion barrier (插入 屏障 ) 

Step (K), Æ JL Generational collection (分 代 回 
Wr), step (BT) 

Stop-the-world collection (77 4 if 1k sX [Al WK), 
275, 276 

Stopless collector ( Stopless 回收 器 )， 参 见 Real- 
time collection (实时 回收 )，Stopless 

Store buffer (存储 缓冲 区 )， 参 见 Write buffer ( 写 
缓冲 区 ) 

StoreConditionally, 238, 239, 257, 260, 
264 ~ 268, 350, th HJ BW Concurrency 
(并 发 )，hardware primitive (硬件 原 语 ) 

Survival rate (存活 率 )，106，116，118 

Survivor space (存活 空间 )， 参 见 Generational 
Collection (分 代 回 收 )，survivor space ( 存 
活 空间 ) 

sweep, basic mark-sweep( 基 本 标记 一 清扫 )，20 

Sweeping (清扫 )，102，153 

allocate, 25 

bitmap (位 图 )，23 

concurrent (Ff), BH Concurrent (并 发 ) 

mark-sweep( 标 记 一 清扫 ) 

lazy (i 惰 ), 24 ~ 26, 55, 78, 95, 299, 
326 

lazySweep, 25 

parallel (并 行 )，299 

pause time (停顿 时 间 )，24 


sweepNursery, 135 


T 


Tax-and-Spend scheduling (税收 与 开支 调度 )， 参 
见 Real-time collection (实时 回收 )，Tax- 


eH 


and-Spend (税收 与 开支 ) 

Tenuring object (提升 对 象 )， 参 见 Generation 
collection (分 代 回 收 )，promoting objects 
(提升 对 象 ) 

testAndExchange, 233 

TestAndSet, 233, 234, 241, 377, 379, 384 

testAndSetLock, 234 

testAndTestAndSet, 234 

testAndTestAndSetExchangeLock, 233 

testAndTestAndSetLock, 234 

Thread-local collection (线程 本 地 回收 )，144 一 
147 

space overhead (空间 开销 )，147 

Thread-local heap (线程 本 地 堆 ), 101, 107, 108, 
109, 110, 144 ~ 147, 230, 329 

Thread-local log buffer (线程 本 地 日 志 缓 冲 区 )， 
342 

Threaded compaction (引线 整理 )， 参 见 Mark- 
compact (标记 一 整理 ), threaded compaction 
(引线 整理 ) 

Thread (线程 )，12，229 

Throughput (吞吐 量 )，6,，77 一 78，208， 也 可 
参见 specific collection algorithm (特定 回 
收 算法 ) 

ThruMax algorithm (ThruMax 算法 )， 参 见 Adaptive 
system ( 自 适应 系统 ) 

Thunk ( 待 计算 值 )，8，125，132，170 

Time overhead (时 间 JF $), Æ J specific 
collection algorithm (特定 回收 算法 ) 

Time measuring (时 间 测 量 )， 参 见 Generational 
collection (分 代 回 收 ), measuring time ( 测 
量 时 间 ) 

Tospace (目标 空间 )，43 

Tospace invariant (目标 空间 不 变 式 ), 参见 Concurrent 
copying and compaction( 并 发 复制 与 整理 )， 
fromspace and tospace invariant (来 源 空间 
与 目标 空间 不 变 式 ) 

Tracing (追踪 )， 参 见 Copying (复制 ); Mark- 
compact (标记 一 整理 ); Mark-sweep( 标 
记 一 清扫 ) 

abstract (抽象 )， 参 见 Abstract tracing (抽象 追踪 ) 

Train collector (火车 回收 器 )， 参 见 Mature Object 
Space collector (成 熟 对 象 空 间 回 收 器 ) 

Transactional memory (事务 内 存 )，267 一 273 
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hardware (硬件 )，271 
Transaction (事务 )，267 一 269 
abort and commit (中 止 与 提交 )，269 

transitionRooms, 291 

Traversal order (遍历 顺序 )， 参 见 Copying (复制 )， 
traversal order (遍历 顺序 ) 

Treadmill collector ( 转 轮 回收 器 )，104，738 一 139, 
361, + TI B Ul Large object space (大 对 象 
空间 ) 

cache behaviour (高 速 缓存 相关 行为 )，139 
space overhead (空间 开销 )，139 
time overhead (时 间 开 销 )，139 

Tricolour abstraction (三 色 抽 象 )，20 一 21， 也 可 
参见 Anthracite ( 煤 灰 色 )，Purple (紫色 )， 
Yellow (黄色 ) 

abstract concurrent collection (抽象 并 发 回收 )，334 

abstract tracing (抽象 追踪 )，81 

allocation colour (分 配 颜 色 )，314，391 

concurrent collection (并 发 回收 )，309 ~ 313, 
352 

concurrent reference counting (并 发 引用 计数 ), 370 

mutator colour (赋值 器 颜色 )，313，314，324， 
325, 328, 329, 336, 337, 340 

strong and weak tricolour invariant (9% 35 = f 7S 
ARK), 312 ~ 313, 324, 325, 391 

Treadmill collector ( 转 轮 回收 器 )，138 

Tuple definition and notation (元 组 定义 与 记 法 )，15 

Two-finger algorithm ( 双 指 针 算法 )， 参 见 Mark- 
compact (标记 一 整理 ),two-Finger algorithm 
( 双 指 针 算法 ) 

cache behaviour (高 速 缓存 相关 行为 )，34 

Type information (类 型 信息 ) 

BiBoP， 参 见 Big bag of pages technique (页 簇 分 
配 技 术 ) 
Type-accurate collection (类 型 精确 回收 )，23，104 


U 


Ulterior reference counting (# 引用 计数 )， 
157 一 158 

UMass GC Toolkit，118 

Unique pointer (唯一 指针 )， 参 见 Pointer (指针 )， 
unique (唯一 ) 

Unreachable (不 可 达 )，14 
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updateReferences, mark-compact( #ric — 整理 )， 
33, 35 


V 


Virtual machine (虚拟 机 )， 参 见 Java virtual machine 
(Java 虚 拟 WL); Multi-tasking virtual 
machine (多 任务 虚拟 机 ) 

Virtual memory (虚拟 内 存 )， 也 可 参见 Paging 
behaviour ( 换 页 行为 ) 

Virtual memory technique (虚拟 内 存 技术 )，140， 
165, 193, 202, 203 ~ 210 

double mapping (二 次 BR Ft ), 206, 352, 


355 一 361 
guard page (哨兵 页 )， 参 见 page protection (页 
保护 ) 


page protection (JRH), 140, 195, 205 ~ 208, 
317, 340, 352 ~ 361 


W 


Wait-free algorithm (无 等 待 算 法 )，243，255， 
261，271，301，302，410，415， 也 可 参 
见 Concurrency (并 发 ), progress guarantee 
(前 进 保障 )，wait-free (无 等 待 ) 
consensus (一 致 )，240，243 
Wavefront (回收 波 面 )，20 
concurrent collection (并 发 回收 )，310，334， 


338, 340 

Weak reference ( 弱 引 用 )， 参 见 Reference (引用 )， 
weak (55) 

White (白色 )， 参 见 Tricolour abstraction (三 色 
抽象 ) 


Wilderness preservation (拓展 块 保 护 )，100，152 

Work list (工作 列表 ),，324, 338， 也 可 参见 
Chunked list (内 存 块 链表 ) 

Work pulling (工作 拉 取 )， 参见 Work stealing (T. 
EBL) 

Work pushing (工作 推送 )， 参 见 Work sharing ( 工 
作 共 享 ) 

Work sharing (工作 共享 )，248 ~ 252, 303 ~ 305, 
也 可 参见 Work stealing (工作 窃取 ) 

Work stealing (工作 窃取 )，248 ~ 252, 267 ~ 268, 
279 ~ 284, 292, 299, 303 ~ 305, 342, 
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也 可 参见 Work sharing (工作 共享 ) 
stealable work queue (可 窃取 工作 队列 )，280 
termination (结束 )， 参 见 Concurrent collection 
(并 发 回收 ) 
Write, 15, 310, 330 
Brooks’s indirection barrier (Brooks 间接 屏障 )， 
341 
card table on SPARC (SPARC 架构 之 上 的 卡 表 )， 
198 
concurrent reference counting (并 发 引用 计数 )， 
364, 365 
age-oriented (面向 年 龄 )，372 
buffered (缓存 )，366，367 
sliding view【(〈 滑 动 视 图 )，370，372，373 
concurrent reference counting (并 发 引用 计数 )， 
coalesced (合并 )，370 
generational (分 代 )，abstract (抽象 )，136 
generational (分 代 )，with frame (基于 Wi), 
205 
incremental tracing ( 增 量 追 踪 )，333 
multi-version copying (多 版 本 复制 )，344 
real-time collection (实时 回收 ) 
Chicken, 410 
Clover, 411 
incremental replicating ( 增 量 副 本 复制 )，405 
replicating (副本 复制 )，378，381 
slack-based (基于 间隙 )，389 
reference counting (引用 计数 ) 
abstract (抽象 )，83 
abstract deferred (抽象 延迟 )，84 
coalesced (合并 )，64 
deferred (延迟 )，62 
simple (简单 )，58 
Sapphire Copy phase (Sapphire 回收 器 的 复制 阶 
段 )，349 ~ 351 
Sapphire Flip phase ( Sapphire 回收 器 的 翻转 阶 
段 )，349，351 
Sapphire Mark phase ( Sapphire 回收 器 的 标记 
阶段 )，348 ~ 349 
sequential store buffer (顺序 存储 缓冲 区 )，195 
Staccato, 409 
Write barrier (SFR), 14, 57, 67, 109, 110, 
132, 144, 146 ~ 148, 151, 154, 155, 
157; 162, 1883-191 ~ 205 
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abstract concurrent collection (抽象 并 发 回收 )， 
334 
Beltway ( 带 式 )，130，131 
card table( 卡 表 )， 参 见 Card table (FÆ) 
concurrent collection( 并 发 回收 ), 参见 Concurrent 
collection (并 发 回收 )，write barrier ( 写 
屏障 ) 
generational (分 代 ), 112, 115, 119, 124 ~ 126, 
133, 134 
Metronome, 397 
Older-first (中 年 优先 )，128，129 
reference counting (引用 计数 ) 
coalesced (合并 )，63 ，64 
deferred (HEIR), 62 
performance (EAE), 61 
simple (简单 )，58 
sequential store buffer (顺序 存储 缓冲 区 )， 参 见 
Sequential store buffer (顺序 存储 缓冲 区 ) 
time overhead (时 间 开 销 )，202 一 203, 323 
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when required ( 何 时 需要 )，57 
Write buffer ( 写 屏障 )，235 


y 


Yellow (黄色 )，326 

Young generation (年 轻 代 )， 参 见 Generational 
collection (分 代 回 收 )，generation (分 代 )， 
young 年轻 ) 

Yuasa, Æ JL Concurrent collection (并 发 回收 )， 
deletion barrier (删除 屏障 ) 


Z 


zero count table ($ 5| H #), 2 Jl Reference 
counting (引用 计数 )，deferred (延迟 )， 
zero count table ( 零 引 用 表 ) 
Zeroing ( 清 零 )，43，164，7165 一 166 
cache behaviour (高 速 缓存 相关 行为 )，165， 
166 





垃圾 回收 等 法 手 肌 自动 内 存 管理 的 艺术 


The Garbage Collection Handbook The Art of Automatic Memory Management 


在 自动 内 存 管理 领域 ，Richard Jones 于 1996 年 出 版 的 《Garbage Collection: Algorithms for 
Automatic Dynamic Memory Management》 可 谓 是 一 部 里 程 碑 式 的 作品 。 接 近 20 年 过 去 了 ， 垃 圾 回收 技 
术 得 到 了 非常 大 的 发 展 ， 因 此 有 必要 将 该 领域 当前 最 先进 的 技术 呈现 给 读者 。 本 书 汇集 了 自动 内 存 管 理 研 
究 者 和 开发 者 们 在 过 去 50 年 间 的 丰富 经 验 ， 在 本 书 中 ， 作 者 在 一 个 统一 的 易于 接受 的 框架 内 比较 了 当下 最 
重要 的 回收 策略 以 及 最 先进 的 回收 技术 z 

本 书 从 近年 来 硬件 与 软件 的 发 展 给 垃圾 回收 所 带 来 的 新 挑战 出 发 ， 探 讨 了 这 些 挑战 给 高 性 能 垃圾 回收 
器 的 设计 者 与 实现 者 所 带 来 的 影响 。 在 简单 的 传统 回收 算法 之 外 ， 本 书 还 涵盖 了 并 行 垃圾 回收 、 增 量 式 垃 
圾 回收 、 并 发 垃圾 回收 以 及 实时 垃圾 回收 。 书 中 配备 了 丰富 的 伪 代 码 与 插图 ， 以 描述 各 种 算法 与 概念 


本 书 特 色 
e 为 1996 年 《Garbage Collection: Algorithms for Automatic Dynamic Memory Management》 一 书 
提供 了 完整 的 、 最 新 的 、 权 威 的 续 作 。 
e 全 面 讲 解 并 行 垃圾 回收 算法 、 并 发 垃圾 回收 算法 以 及 实时 垃圾 回收 算法 。 
e 深入 剖析 某 些 垃圾 回收 领域 的 环 手 问题 ,包括 与 运行 时 系统 的 接 日 s 
o 提供 在 线 数据 库 支 持 ; 包含 超过 2500 条 垃圾 回收 相关 文献 。 
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